2020ECCV|RGB-D显著目标检测的分叉主干策略

本人小白,写博客是为了记录学习笔记,也为了和各位大佬交流,如果文中出现错误,希望各位指正,本人不胜感激!

论文题目:Bifurcated Backbone Strategy for RGB-D Salient Object Detection

论文链接:https://arxiv.org/pdf/2007.02713v3.pdf

摘要:

  • 多层次功能重组到老师和学生特点使用分叉支柱策略(BBS);
  • 引入一个depth-enhanced模块(民主党)挖掘的深度线索的渠道和空间的观点;

网络结构:

  •  该网络采用分叉骨战略BBS,即是将多级模态特征分为两组,G1 = {Conv1,Conv2,Conv3} 和G2 ={Conv3,Conv4,Conv5},其中Conv3是分裂点。说白了就是编码区一共5层网络,分为两部分,中间部分conv3作为分裂点,卷积结果两边都给用,浅层的称为学生,深层的称为教师。
  • F_{CD1}为第一个级联解码器,通过利用深层教师特征预测初始显著性图S1;浅层的学生特征和深层教师特征生成的S1元素相乘后再通过第二个解码器F_{CD2}聚合生成显著性图S2。

可以将BBS网络图简化为(是一个分块的简化图,省略了东西,我的大致理解是这样的):

 级联解码器F_{CD1}

 第一个级联解码器是由三个全局上下文模块GCM和一个简单的特征聚合策略组成;

GCM的结构在论文中没有明确给出GCM是从RFB模块中提炼出来的。RFB模块的来自另一篇论文,论文链接为:https://arxiv.org/pdf/1711.07767.pdf

GCM模块:

 GCM模块的作用是:从跨模态特征中挖掘全局上下文信息;

特征聚合模块:

 

GCM模块后面的特征聚合的作用是:为了进一步改善跨通道特性的表征,我们利用金字塔乘法和级联特征聚合策略来聚合跨模态特征;

T1模块:

  T1模块是两个序列卷积层;

PTM模块:

 

 PTM模块的作用是:第二解码器的输出的规模是88×88,这是真实的1/4(352×352),所以直接upsampling输出真实的大小将失去一些细节。为了解决这个问题,我们提出一个简单但有效的逐步转置PTM模块来以累进upsampling方式生成最终的预测图(S2)。它由两个基于残差转置块和三个顺序1×1卷积。每个基于残差转置块包含一个3×3卷积和基于残差转置卷积。此处原论文也给出了所引用的论文,论文链接为:https://arxiv.org/abs/1905.10089,但是看了给出的参考文献不太懂基于残差转置卷积到底是啥结构,这里的参考文献讲的是利用互补注意力ACM实现了一个ACNet网络来更好的融合RGB信息和深度信息。图中给出的TransB模块包括的操作有:Conv+BN+ReLU+DeConv+BN+ReLU+Residual

 DEM模块:

 模块提出的原因是为了解决(1)由于RGB和深度内部存在的形态差异导致的兼容性问题;(2)减少存在低质量深度图中噪声问题;

DEM模块添加在深度分支的侧出层是为了提高深度层的兼容性,改善深度特征的显著性表示,同时保留了多尺度信息。DEM模块还包括了通道注意力模块和空间注意力模块(我不太懂咋用的,注意力机制还没学,后面看了再说)。

参考链接:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值