Abstract
-
当时的sota方法采用特征聚合来寻找显著物体的位置,但它们无法用精细的边界分割出整个物体。
-
作者设计了一个AFMs模块用于更好地搜索显著物体的结构,和一个BEL边界损失函数用于学习精细边界。
Introduction
-
SOD通常用作其他视觉任务的第一步处理。
-
用于图像分类的模型通过迁移学习被进一步发展用于其他视觉领域(如FCN),但是这种一般的全卷积结构有个缺点---重复使用步距和池化进行下采样导致细节信息丢失,并且无法通过上采样恢复。
-
为增强空间信息,引入了分层深度特征之间的多尺度通信机制(跳跃连接,短接,特征聚合等),这是基于较深的层编码深度特征,能更好地定位物体,而浅层能捕捉更多的空间表示,能更好地重建空间细节信息,但仍然难以预测物体整体结构和精细边界。
-
AFNet大致结构---在编码器顶部使用一个全局感知模块(GPM)产生一个低分辨率的显著图以粗糙地检测显著物体,然后使用专注反馈模块(AFMs)指引每一个编码器块和对应解码器块之间的信息流动来逐级改善粗糙预测,边界增强损失(BEL)用于帮助学习物体轮廓。
Related Work
-
Multi-scale fusion methods:早期的方法都是通过不同层之间使用跳跃连接来解决空间细节信息丢失问题,但是这种方法会面临边界问题(空间信息的丢失可能会妨碍浅层特征恢复物体边界),更合适的方法是采用由粗到细的多尺度特征,逐步预测最终的显著性图。
-
Coarse-to-fine solution:最近的sota方法引入递归聚合方法,逐步融合粗特征生成高分辨率语义特征来解决简单拼接浅层和深层特征导致的模糊信息干扰问题,AFNet通过在尺度匹配的encoder和decoder之间构造跳跃连接来类似地构造从粗到细的层次特征,同时使用AFMs来指引信息在encoder和decoder之间的传递。
-
Attention models:G-FRNet将每个encoder和decoder之间的门单元作为注意力机制,这些门单元通过控制前馈信息的传递来过滤模糊信息,这意味着前期阶段一旦出现错误,错误的指导和错误特征的过度使用会导致分割显著物体时出现意外的偏移。AFMs使用三值注意映射---自信前景,自信背景和不确定区域(根据初始显著预测构建,主要集中在物体边界区域)作为信息在encoder和decoder之间流动的指引,这样整个网络不仅通过指引整合不同阶段的特征,而且通过AFMs在每个阶段输入时进行误差修正。
Proposed Method
Network Overview
-
Encoder Network:使用VGG-16作为backbone,并去掉最后两层全连接层和池化层,跳过第五个encoder块前的下采样,避免丢失更多的空间细节信息,同时在第五个encoder块中使用dilation=2的扩张卷积来维持感受野的大小。
-
Global Perception Module:充分利用encoder提取的特征来生成全局显著性特征图,并输入到decoder进行细化。
-
Decoder Network:每一个decoder块都有三个3x3的卷积层,输出通道数为32,32,1,两倍上采样。在对称的encoder块和decoder块之间通过AFMs进行信息传递。在D(1)和D(2)使用BEL增强边界区分能力。
Global Perception Module
-
由于最深层中的相邻元素具有很大的重叠感受域,意味着输入图像上的相同像素贡献了大量冗余次数来计算单个显着性值,因此GPM将E(5)的输出分解成多个区域分别卷积,减少计算次数。
-
实现:将E(5)的输出划分为nxn个区域,然后用kxk的卷积核在nxn个区域上进行卷积得到全局特征Fn,最后通过一个3x3卷积得到全局特征图
Attentive Feedback Module
-
第一个时间步将对称E(l)的输出fe(l,1)和D(l+1)输出的特征图fd(l+1,2)和生成的显著图S(l+1,2)进行拼接作为注意特征I(l,1)输入到D(l)后得到显著图S(l,1),其中fe(l,1)用1x1的卷积减少通道,fd(l+1,2)和S(l+1,2)进行2倍上采样。
-
第二个时间步将第一个时间步产生的显著图S(l,1)经过形态学膨胀和腐蚀(使用最大池化操作实现)后再相加得到三值注意映射T(l),然后将T(l)和E(l-1)的输出进行逐像素相乘后输入到E(l)产生新的fe(l,2),最后将fe(l,2),fd(l,1)和S(l,1)进行拼接得到新的注意特征I(l,2)输入到D(l)后得到最终的显著图S(l).
膨胀和腐蚀表达式为
Boundary-Enhanced Loss
-
B(l)X表示产生物体轮廓图的操作,其中P是指平均池化,A指平均池化的核尺寸
-
BEL表达式为
其中lambda表示两个损失的权重,在实现中lambda1:lambda2=1:10,Lce表示交叉熵损失,Le表示mse损失。
Evaluation metric
-
PR曲线,F-measure,MAE,S-measure。
Conclusion
-
AFNet以去掉最后两层全连接和最后一层池化的VGG-16作为backbone。
-
新的GPM全局感知模块用于全局显著预测,可减少计算冗余。
-
由于在浅层和深层之间直接使用跳跃连接可能会面临边界问题(深层特征丢失了很多细节信息,可能会妨碍浅层特征恢复物体边界),AFNet设计了AFMs用于指引信息在encoder和decoder之间的流动。
-
新的BEL边界增强损失函数用于辅助网络提取物体精细的边界。