r-fcn论文

本文探讨了全卷积网络在目标识别中的应用,以ResNet为基础,分析了translation invariance与translation variance的问题。提出了解决方案——RFCN,它通过position-sensitive score map和ROI pooling来保留位置信息。RFCN在网络结构中分为RPN和RFCN,前者生成目标建议框,后者生成位置相关的特征图。通过调整学习到的特征位置信息,RFCN有效地解决了分类网络中位置信息丢失的问题,从而提高了目标识别的准确性。
摘要由CSDN通过智能技术生成

这是一篇基于全卷积网络的目标识别,baseline是用resnet。当然不是使用resnet+faster rcnn那么简单。

问题来源:

translation invariance 和translation variance

卷积网络最初兴起于分类任务,当然效果是越来越好,而一般的目标识别的网络也是通过分类的网络提取特征(zf,vgg,res等等),再加上一系列的操作(roi,bounding box等)。但是在分类任务中最重要的是提取图片中目标的特征,使得即使在测试图片中,目标发生平移,小角度的旋转等变换时,都不会影响正确的分类。这也就是说分类的网络学习到的特征是translation invariance。

但是在识别任务中,网络最终要的任务是定位物体所在的位置,很显然使用分类的网络得到的转化不变性与识别任务的初衷相悖。

话句话说,卷积越深,特征图中的位置信息就越少(fcn中skip net也就是解决这个问题)。于是迫切需要能带有位置信息的卷积特征图。

解决1:在resnet 中,将roi pooling插入在卷积层中。(也就是早点把roi区域提取出来,这样不就保存的位置信息么)但是这导致了在右面处理每个roi子网络(不共享计算)计算量过大。

解决2:position sensitive score map和position sensitive roi pooling,也就是本文作者所提出的结构。

clipboard

clipboard

从前往后看,输入image,经过共享的卷积层,分为rpn网络和rfcn,rpn网络用于生成目标建议框。rfcn网络用于生成与位置有关的特征图。特征图大小为k x k x (c+1)。k取决于将roi分为多少乘多少的网格,然后将roi目标区域池化,得到每个roi 的score,再通过vote生成c+1维向量,最后计算softmax。

从后往前看,得到的roi score是一个k x k x (c+1)的一个特征图,其中k是将roi区域分为k x k的bin网格,这样也就产生了上左,上中,上右等等区域。c是分类的数目,c+1就是再加上背景的一类。每个网格bin具体是怎样计算的呢?

注意图中map的不同颜色,每一个bin的池化数据都是来自于score maps中相同颜色的map(这也就是为什么采用选择性池化),这非常有意思。这样也就迫使score maps中的层带有些许位置信息。以前我以为卷积只是从图像中提取信息,看作一个图像特征的自动提取器,可以通过反向传播特提到不同的特征。但是在该论文中通过反向传播,调整卷积所学习到的特征位置信息,impressive。

那这样做的意义在于什么呢,所学习到的位置信息又是怎样的呢?

在下图中,小baby位于图像的正中,后的9个特征图是上图中score maps的可视化(选择正确的类别)。虽然都是从原始图片的feature map,但是在不同位置有不同的响应(白色区域分布位置不同),恰巧都对应于bin所在的位置。可以脑补,经过池化,roi score肯定很高。

clipboard

下面是一张没对齐的例子。很显然roi score不高。

clipboard

总结:

本文最重要的是解决了卷积中位置信息丢失的问题。作者通过设计一个子网络(最主要的还是如何评价学习到特征,再通过反向传播调整特征)保存了物体的位置信息。

这也就解释为何分类学习到的特征丢失了location信息,从loss函数来看,你压根就没有想让它学习location信息。所以loss函数评分可以规范卷积学习的特征,并不仅仅是特征种类,和可以是特征位置,现在看来对卷积网络的理解还是不够深刻。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值