2022_NP_MIADPD

小羊咩~

已于 2022-11-29 21:31:12 修改

阅读量577

点赞数

分类专栏： RGB-D 文章标签：深度学习人工智能

于 2022-11-29 21:29:37 首次发布

本文链接：https://blog.csdn.net/m0_58702532/article/details/128092061

版权

RGB-D 专栏收录该内容

30 篇文章 19 订阅

订阅专栏

1. 动机

RGB-D SOD 通常被视为单独的视觉任务。

大多数的RGB-D SOD 直接从骨干中提取和融合原始特征。

2.解决方案

在本文中，我们探索了这两个任务之间的潜在共性，并提出了一种新颖的端到端统一框架，该框架可同时用于rgb-d和rgb-t SOD。主要从以下三个问题入手：

(1) 如何有效地从多模态输入中提取单模态特征; (2) 如何对提取的多模态特征进行综合融合; (3) 如何利用融合后的特征推断最终的显著性图。

MIA 以通过自学习来学习每个单模态的重要性，并将RGB和深度/热特征融合以获得RDi或RTi。

JAGCD 模块来捕获三种模态 (Ri; Di; RDi或Ri; Ti; RTi) 的多尺度融合特征。

MFPD 通过集成从JAGCD模块获得的特征。

3. 网络框架

3.1 MIA （多模态注意交互单元）

动机：不同模态的图像来源不同，因此本质上也不同。但是，对于SOD 任务，他们的作用不仅是一致的，而且还具有自己的额外有益效果。本文充分利用不同模态的特点，实现更好的SOD 性能。

方法：不同的层对整个物体有不同的响应。我们在每个不同级别上探索MIA单元，旨在对跨模态特征进行干扰物过滤和增强。

具体过程：

3.2 JAGCD (联合注意引导跨模态解码模块 )自上而下的信息解码流

将上一级经过MIA 的交互特征，与下一级的两个模态的特征进行相加，再经过CA+SA，上采样和1*1卷积。

注意力：

动机：每个卷积都有多通道特征图，但并非所有通道都能预测显著性。同样，在每个特征图中，来自不同空间位置的特征可能在SOD中扮演不同的角色。

方法：因此JAGCD 模块中使用CA+SA，以有效地过滤特征。CA 反应每个特征图的全局通道重要性，SA 表示特征的局部空间重要性。在本文中，作者使用微调的CBAM。

具体过程：

FRF（.）是一个共享网络，由具有一个隐藏层的多层感知组成。f是输入特征。

JAGCD具体过程：

将 RM3 和 RM4 使用加法结合。并且加入原始的RGB和深度特征，目的是学习特征对确定显著目标的贡献是有益的。然后应用上面的 CA + SA ，目的是选择一些具有更高通道权重和空间权重的重要特征，并输入到下一个级别。最终，获得了4个尺度的融合特征，分别为F0，F1，F2，F3。这种渐进的方式，更有效地整合了局部和全局功能，增加了不同分支之间的相互作用：

3.3 MFPD （多级特征渐进解码模块）

MFPD这种结构可以进一步充分利用多尺度层次上的跨模态特征，有助于保证特征的兼容性。

MFPD 有3 层，输入为 JAGCD 生成的 4 个不同尺度的融合特征F0，F1，F2，F3。输出为 3 个特征图，S1，S2，S3，尺寸和R0相同。

每个层的信息通过逐层上采样和元素加法来积累，这为不同尺度的跨模态特征提供了更多的交互作用。

与 [13] 中提出的流体金字塔整合 (FPI) 相比，MFPD的结构更加稀疏。在两个相邻层中，只有更高级别的节点的特征被转移到下一层的节点，而不是像FPI那样以类似的密集连接方式在相邻层之间转移节点。此外，提议的MFPD与jl-dcf中的DCF组件不同 [22]，尽管两者实际上都是密集构建的。

Jl-dcf中的解码器是一个复杂的结构，由跨模态融合模块，具有初始结构的特征聚合模块 [67] 以及从深层到浅层的密集连接组成。相比之下，从图2中可以看出，我们的MFPD仅包含简单的卷积操作，而密集连接主要促进浅层特征的增强，这是JAGCD提取的特征的另一种融合。

最后，在过渡卷积层和激活层之后，获得3个显著性图S1，S2，S3（最终显著图）。S0由F0经过上采样和1 *1 卷积获得。另外作者还说明，若直接将F0作为最终预测，已经超过很多算法，MFPD起到锦上添花的作用。

4　实验

训练集为两个数据集，NJU2K和NLPR，骨干网络为ResNet50，输入尺寸为352＊352，NVIDIA RTX 2080Ti GPU用于培训和测试。Adam [59] 优化参数，权重衰减为5e-4，动量　momentum　为0.99。学习率设置为1e-4。批量大小设置为5。我们在训练过程中不使用验证集。