[2021]Cross-modality Discrepant Interaction Network for RGB-D Salient Object Detection

目录

一、动机

二、相关工作

三、跨模态差异交互网络(CDINet)

3.1. RGB 诱导的细节增强(RDE) 模块:

3.2. 深度诱导语义增强(DSE)模块:

3.3. 密集解码重建(DDR)模块:


一、动机

低级 RGB 特征可以帮助深度特征区分同一深度级别的不同对象实例,而高级深度特征可以进一步丰富 RGB 语义并抑制背景干扰。 为了充分发挥每种模态的优势,同时利用另一种模态来弥补自身,避免造成干扰。

解决特征编码器中的跨模态交互问题

提出了一种跨模态差异交互网络,根据不同层的特征表示,在编码器阶段对两种模态的依赖性进行差异建模,有选择地利用RGB特征补充深度分支的细节,并将深度特征转移到RGB模态中,以丰富语义表示。

(两种模式各有长处,根据它们的作用设计一种差异化的 RGB-D SOD 交互模式,以充分利用两者的优势)


二、相关工作

1. 注意力机制

空间注意力机制[38]:使网络关注感兴趣的区域。

通道注意机制 [20] :学习每个通道的重要性。

在 RDE 和 DSE 模块中采用了空间方面和通道方面的注意。 此外,我们更关注注意力的跨模态应用,即利用一种模态生成的注意力图增强另一种模态特征,从而以注意力的形式实现更有效的跨模态引导

2. 跳过连接

Long-range skip connection是像素级预测任务中恢复图像细节的一种措施,几乎所有的RGB-D SOD模型都配备了它。 对于在编码器中发生跨模态交互的模型,跳过连接表示为直接的特征加法或连接, 对于在解码器中融合跨模态特征的其他网络,专有模块通常被设计为包含跳过特征(也称为边输出)。


三、跨模态差异交互网络(CDINet)

该网络由三部分组成:(1)RDE(2)DSE(3)DDR

该网络遵循编码器-解码器架构:包括两个编码器(RGB 和深度模态)和一个解码器,两个编码器均采用 VGG16网络,丢弃最后的池化层和全连接层,作为主干提取相应的多级特征表示,实现跨模态信息交互。从主干提取的RGB特征),深度特征)(其中𝑟和𝑑代表RGB和深度分支,𝑖∈{1,2,...,5}索引feature level

(1)RDE低级特征编码阶段

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值