目标检测系列:论文阅读——Feature Selective Anchor-Free Module for Single-Shot Object Detection(CVPR2019)

居然是这学期第一篇目标检测的论文,再不看都快忘了检测的知识了。

最近关于anchor的讨论特别多,本文就是比较新的anchor-free方法,提出的模型称为FSAF(Feature Selective Anchor-Free Module),主要包含两个内容:anchor-free的边框回归及其基于的特征层的选择。

先回顾一下anchor-based方法:anchor box是预设好的一些边框,数量固定(指的是每个像素点对应的anchor-box是有限个的),有不同的尺寸和比例(尺寸对应物体的大小,比例对应物体的形状),表现形式为四个值:中心点横纵坐标和宽高。人为设定好anchor-box对应的特征层(高层的特征具有low resolution和high feature,低层的特征有high resolution和low feature):大的anchor-box对应到高层特征,小的anchor-box对应到低层特征(因为大的box是用来检测大物体的,大物体即使在高层特征图中仍然不会被遗漏,同时还具有更好的特征;但小box用来检测小物体,小物体在高层特征图中由于不断的下采样会很难检测到,更适合在低级的特征图中检测)。这种人为设定遵循的规则可以用公式表示:

其中w,h表示anchor-box的宽高,l_0表示224*224大小的box对应的特征层,比该尺寸小的box就会得到更小的l',就是被指定到更低层的特征。将所有的anchor-box对应到某一层特征后,基于anchor-box对应的特征图局部进一步提取特征,然后产生两个分支:分类和边框回归。

这种方法的结果受限于两个问题:1)anchor-box的尺寸和比例只有几种情况,并不能很好地对应真值(真正的物体大小和形状多样);2)人为设定下指定的特征层不是最优的,可能分配不合理,导致检测结果不好。

(还有一点不知道有没有用:anchor-box的产生是overlap的,每个像素点都有各自的anchor-box,数量很多,最后通过NMS去除多余的框,这个过程中也会有误差)

在此基础上,本文提出了anchor-free的方法,使用了FSAF完成检测任务,主要改变有两方面:1)不产生anchor-box,直接边框回归;2)online-assign每个物体对应的特征层,在该特征上进行检测。

结构上的改变如下图所示:

变动其实很小,就是改变了最后分类和回归的一层卷积。以前是对每个anchor-box对应的区域进行检测,假设有A个anchor-box,分类的输出有KA个特征图,每个特征图对应一个anchor-box在一个类别上的概率;边框回归输出就是4A个特征图,对应每个anchor-box所表示区域的四个数值。anchor-free方法中,分类输出K个特征图,表示某物体对应于每个类别的概率;回归中也只有4个特征图,表示该物体所在区域。

基于该方法有四个问题:1)如何设计anchor-free思路下的网络结构;2)该情况下的监督信息是什么;3)如何给每个物体指定特征层;4)如何联合训练anchor-based和anchor-free。按照这个思路分别介绍:

Anchor-Free Structure

结构上的设计非常简单,设计了一个anchor-free branch,可以很方便地插入到使用了特征金字塔的检测网络中,可以单独使用,也可以和anchor-based branch共同使用。其实从上面的图中得知,这个branch其实就是两个卷积层,分类和回归各一个。在feature pyramid中的不同层,随意插入anchor-free branch就可进行检测。文中使用的backbone是RetinaNet,选取的特征层范围是P_3P_7,下标数字表示下采样倍数(2^{number})。这些层都有各自的分类和回归子网络(全卷积结构,就是在该特征图上继续提取特征然后得到分类和回归结果),anchor-free branch就是这两个子网络的最后一层,分类网络中是具有K个3*3卷积核的卷积层加上sigmoid激活,回归网络中是具有4个3*3卷积核的卷积层加上ReLU激活。

Ground-Truth and Loss

这个地方的变动是很大的,目前还不是很理解这种设计的意义。

对于一个instance,真值是一个表示类别的label和表示区域的box(b=[x,y,w,h])。因为要在不同大小的特征图上检测instance,指定某一层后会产生该instance在该层的projected box(b_{p}^{l}=[x_{p}^{l},y_{p}^{l},w_{p}^{l},h_{p}^{l}]),这是根据特征层下采样比例对应缩放后的box,即在l层有b_p^{l}=b/2^{l}。在该层基础上,还会产生该instance的effective box(b_{e}^{l}=[x_{e}^{l},y_{e}^{l},w_{e}^{l},h_{e}^{l}])和ignoring box(b_{i}^{l}=[x_{i}^{l},y_{i}^{l},w_{i}^{l},h_{i}^{l}]),其中x_{e}^{l}=x_{p}^{l},y_{e}^{l}=y_{p}^{l},h_{e}^{l}=\epsilon _eh_{p}^{l},w_{e}^{l}=\epsilon _ew_{p}^{l}x_{i}^{l}=x_{p}^{l},y_{i}^{l}=y_{p}^{l},h_{i}^{l}=\epsilon _ih_{p}^{l},w_{i}^{l}=\epsilon _iw_{p}^{l},并且\epsilon _e=0.2,\epsilon _i=0.5

注意:effective box和ignoring box因为是在特定层的projected box上变化的,都是中心位置不变,只对box大小缩放。

分类网络:输出是K个特征图,每张特征图的真值:effective box对应区域像素值全部为1,ignoring box中除去effective box的部分为灰度图像,不参与反向传播(也就是不计算loss),instance对应特征层的相邻层中的ignoring box(b_{i}^{l-1},b_{i}^{l+1})也不参加反向传播(可不可以理解为,在该层检测后,就不可能在相邻层再次被检测,所以要忽略相邻曾的box)。如果两个instance的effective box有重合,小instance优先。特征图其余位置被0填充,表示无物体存在。

loss计算采用了focal loss方法,是所有non-ignoring区域focal loss的和(non-ignoring区域包括effective box和像素值为0的无物体区域)再被effective box内像素个数normalize的结果。

回归网络:输出是4个特征图,真值:每个像素点和projected box间的坐标偏移量(d_{{i,j}}^{l}=[d_{t_{i,j}}^{l},d_{l_{i,j}}^{l},d_{b_{i,j}}^{l},d_{r_{i,j}}^{l}]),其中d_{t}^{l},d_{l}^{l},d_{b}^{l},d_{r}^{l}分别表示像素点(i,j)和projected box上边界,左边界,下边界和右边界的距离,也就是每个像素点在4个特征图中对应位置的值。每张特征图中,这个值还会由S=4进行normalize。

感觉这里有点问题:偏移量到底是相对于projected box的还是effective box的。文中写的是projected box,可是在下面loss计算时,明显非ignoring的区域大小是和上面白色部分大小相同的,而且文中说的也是effective box,图中表示的也是这个区域内的边界像素值为0(黑色的),如果偏移量是相对于projected box的,effective box的边界像素值不可能为灰色,因为偏移量不可能为0。

计算loss时,effective box外的区域都视为ignoring的,不参与loss。因此regression loss就是根据effective box内的像素点偏移量计算的IoU loss。一张image的regression loss就是所有effective boxes的IoU loss的平均值(一张image中可能有多个instance,所有instance都要计入)。可以结合下图理解:

对于car这个instance,绿色边框就是它最原始的边框b=[x,y,w,h]或者是已经对应到特定层的projected box b_{p}^{l}=[x_{p}^{l},y_{p}^{l},w_{p}^{l},h_{p}^{l}]。在上半部分的分类网络中,输出中的白色部分就是effective box区域,由于0.2倍的缩放要比projected box小很多,灰色的部分就是ignoring的区域,黑色部分是无instance的区域,只有黑色和白色区域的像素点参与loss计算。下半部分的回归网络中,输出中只有两个区域,灰色的是ignoring部分,不参与loss。仔细观察非灰色的部分:就是effective box内的像素点,四个特征图的值各不同,最左侧的特征图中effective box内从上到下由黑到白,因为像素值表示该位置与effective box上边界的距离,所以最上面是黑色的,表示和effective box上边界距离为0。后面几张同理。

当测试时,可以很直接地从回归网络的预测结果得到box的信息:假设预测的点(i,j)处的偏移量为\hat{o}_{{i,j}}^{l}=[\hat{o}_{t_{i,j}}^{l},\hat{o}_{l_{i,j}}^{l},\hat{o}_{b_{i,j}}^{l},\hat{o}_{r_{i,j}}^{l}],那么预测的距离就是[S\hat{o}_{t_{i,j}}^{l},S\hat{o}_{l_{i,j}}^{l},S\hat{o}_{b_{i,j}}^{l},S\hat{o}_{r_{i,j}}^{l}],预测的projected box的左上和右下角坐标分别为(i-S\hat{o}_{t_{i,j}}^{l},j-S\hat{o}_{l_{i,j}}^{l})(i+S\hat{o}_{b_{i,j}}^{l},j+S\hat{o}_{r_{i,j}}^{l})。再进一步scale,可以得到原图尺寸下的box边界。该box的类别就是分类网络输出的K个特征图中的最大值对应的类别,置信度就是最大的得分。

Online Feature Selection

文中说特征选择是基于图像内容而不是已往的图像大小,所谓内容其实就是label和box,实际操作就是在每一特征层上用anchor-free branch检测一次,取最好的结果所在层作为最终指定的特征层(感觉这里是有点麻烦的,低级特征图还是比较大的,使用anchor-free branch还是有一定计算量的。每检测一个物体,就要在所有层上试验一次有点麻烦,说不定可以后续改进一下)。

因为特征选择是针对每个instance的,和前面所讲的一张image的loss计算有略微不同,classification loss和regression loss都是对effective box区域进行平均的,具体公式如下:

其中L_{FL}^I,L_{IoU}^I分别是classification和regression loss,上标I表示instance;N(b_e^l)表示effective box内像素点个数;FL,IoU分别表示基于像素点的focal loss和IoU loss,并且注意求和范围,只计入effective box内的点。对每一层计算如上loss后,最小值对应的特征层就是特征选择的结果:

训练时,每一特征层都是根据分配给它的instance进行更新的,可以理解为,该层特征最适合这些instance,通过训练让其继续向这些instance的方向倾斜。测试时无需进行特征选择,因为训练后的网络一定会给适合该层的instance很高的confidence score,自然就会作为预测结果输出。

Joint Inference and Training

anchor-free branch非常简单,很容易插入到网络里。因此本文将anchor-free branch插入了RetinaNet,共同训练和测试以观察结果。就是下面这张见过的图:

测试时,anchor-free branch其实只是加了两个卷积层,前向计算和之前一样简单。在anchor-free branch中,每一特征层只取threshold=0.05过滤后得分前1000的box location。这些box和anchor-based branch中的box合并,再用threshold=0.5的NMS方法留下最后的box。

训练时,整个网络的loss由两部分构成:L=L^{ab}+\lambda(L_{cls}^{af}+L_{reg}^{af})L^{ab},L_{cls}^{af},L_{reg}^{af}分别为anchor-based的loss,anchor-free中的classification loss和regression loss。

Ablation Experiments

1. Anchor-free branch:

anchor-free 方法中,如果仍使用人为特征选择的方法,效果是下降的;但是结合anchor-based branch后,尽管还是人为选择特征,效果也是改善很多的,说明anchor-free branch可以帮助anchor-based branch学习难的instance。

2. Online feature selection:

上表中,在仅使用anchor-free branch时,两种特征选择方法间是有差异的,online feature selection明显有提升准确率;在anchor-based和anchor-free共同作用时,该特征选择方法下的准确度提升了更多(可以理解为两个branch中都有它的作用,自然比单个branch的作用大)。

3. FSAF Module:

以上两部分结合起来就是FSAF Module,效果如下表:

下图显示了FSAF Module究竟对哪些instance有改善作用:

可以看到检测出的都是很小或者细长形状的物体,个人理解为:一方面小物体受人工特征选择的影响比较大,如果被指定到高特征层很可能会漏检,另一方面细长的物体不符合预设anchor的形状,因此很难检测。

其实loss的部分理解不是很透彻,要是有代码就好啦,期待开源。

有一篇博客写得超级好:

https://blog.csdn.net/diligent_321/article/details/88384588

理解得比较深刻,膜拜一下。

 

 

发布了42 篇原创文章 · 获赞 23 · 访问量 2万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览