[论文阅读] Cascaded Partial Decoder for Fast and Accurate Salient Object Detection

论文地址:https://arxiv.org/abs/1904.08739
代码:https://github.com/wuzhe71/CPD
发表于:CVPR’19

Abstract

现有的最先进的显著目标检测网络依赖于融合预训练的卷积神经网络(CNN)的多级特征。与高层特征相比,低层特征对性能的贡献较小,但由于其空间分辨率较大,因此计算成本较高。在本文中,我们提出了一个新颖的级联部分解码器(CPD)框架,用于快速和准确的显著目标检测。一方面,该框架构建了部分解码器,放弃了较浅层的较大分辨率特征,以达到加速的目的。另一方面,我们观察到,融合较深层的特征可以获得相对精确的显著图。因此,我们直接利用生成的显著图来完善主干网络的特征。这一策略有效地抑制了特征中的干扰因素,并极大地提高了其表征能力。在五个基准数据集上进行的实验表明,所提出的模型不仅达到了SOTA,而且比现有的模型运行得更快。此外,所提出的框架还被进一步应用于改进现有的多级特征融合模型,并显著提高其效率和准确性。

I. Overview

本文的一个比较核心的点是,通过实验观察,发现SOD网络的浅层对性能的提升帮助不大,但是性能开销却很大,因此最后直接就将浅层解码器给丢弃了,通过细化深层解码器特征来改善细节效果。即,相对于其他工作中的"Full Decoder",本文是"Partial Decoder"。

II. Network Architecture

在这里插入图片描述
可以看到,本文的的backbone为VGG16。对于前两层浅层的编码器特征conv1,conv2,并没有设计相应的解码器对其进行处理,即"放弃了浅层解码器";而到了conv3,文中记其为优化层,用于进行注意力机制的学习。从conv3起,网络分为了两个分支,一个是注意力分支(上半部分),一个是检测分支(下半部分)。检测分支用于生成最终的显著预测图。

对于注意力分支,可以发现其融合了conv3、conv4、conv5这三个偏深层的特征,然后将其送入一个部分编码器中。可以发现,实际上这个时候也是可以生成一张显著图的,实际上也确实生成了一张显著图 S i S_{i} Si以供监督。只不过,该部分学到的特征实际上是作为一个注意力特征,在送入注意力模块HAM处理后,作为注意力图以对conv3进行加强。而接下来的下半部分即为检测分支,只不过此时的输出作为了最终的显著预测结果。

这里需要注意的一点是,注意力分支与显著分支在结构上是完全一样的,只不过注意力分支的结果经过HAM处理后变为了注意力图。当然,两者在训练后的参数是不同的。

III. Holistic Attention Module(HAM)

其实就是个这个东西: S h = M A X ( f min ⁡ − max ⁡ ( Conv ⁡ g ( S i , k ) ) , S i ) S_{h}=M A X\left(f_{\min _{-} \max }\left(\operatorname{Conv}_{g}\left(S_{i}, k\right)\right), S_{i}\right) Sh=MAX(fminmax(Convg(Si,k)),Si)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值