- Introduction
des网络是SSD的另一个改版,它也考虑到高分辨率的特征语义低, 对于SSD直接使用这些特征分类效果差的问题提出了对低层特征图训练语义分割网络,并与网络得到的显著图进行元素相乘以提升地层语义等级的方法,可以说是FPN的另一角度了。还有一点创新是对高层特征进行通道学习(没看懂),进一步提升高层特征语义。
- 网络结构
-
- 语义分割网络
对低层conv4_3训练语义分割网络输出同输入大小相同。网络后半部分是用来产生梯度的分类器 F ( g ( x ) ) F(g(x)) F(g(x)),取中间特征图 g ( x ) g(x) g(x),生成显著图 H ( g ( x ) ) H(g(x)) H(g(x))并与conv4_3元素级相乘,也可以认为是对低层特征过滤的注意力机制。
标签处理
使用bbox标签所以称为弱监督下的训练,bbox内像素为响应类别,外部像素为背景类,重叠bbox的部分取尺寸小的bbox对应的类别。
- 全局激活模块
首先对输入特征图 X X X进行全局平均池化输出为 1 ∗ 1 ∗ C 1 *1 *C 1∗1∗C,然后生成激活值 S S S,将激活值与输入特征图相乘后得到特征图 X ‘ X^` X‘替换掉原来的特征图。(这类似于alexnet的通道抑制吗?)
- 实验
分割网络提升语义的部分对总MAP提升了1.7个点(总共比SSD提升了2.2个点)但对conv4_3,这一层提升我觉得是不均匀的而且增加了语义分割网络,相比之下我觉得FPN对所有特征图语义提升更均匀一些。又是一个在voc上MAP达到80的网络。
DES512(基于SSD512)
VOC2007 map=81.7
VOC2012 map=80.3
DES300
79.7 77.1