【阅读文献笔记】跨模态交互融合与全局感知的RGB-D显著性目标检测

最新推荐文章于 2025-02-22 17:15:26 发布

梨V_v

最新推荐文章于 2025-02-22 17:15:26 发布

阅读量959

点赞数 8

分类专栏：文献文章标签：笔记

本文链接：https://blog.csdn.net/qq_46460379/article/details/143717846

版权

文献专栏收录该内容

64 篇文章

订阅专栏

显著性目标检测（SOD）：旨在模拟人类视觉系统，通过自动分析图像或视频中最吸引注意力的区域或目标。

RGB-D：是指结合红绿蓝（RGB）图像和深度（D）图像的一种技术。在RGB-D中，RGB图像提供了颜色信息，而深度图像则提供了场景中物体的距离信息。这两个信息源可以相互补充，为计算机视觉和机器人领域的各种任务提供更丰富的数据。

（a）利用一个独立的子网络来提取深度特征, 然后将这些特征直接合并到 RGB 特征中。

（b）从通道和空间注意力中挖掘深度信息线索, 然后将深度信息以辅助方式融合进 RGB 特征中。

然而，大多数融合策略并未实现深度特征与 RGB 特征的双向交互，导致 SOD 在一些深度特征较差的情况下所取得的检测效果并不理想。而且现有的 CNN 方法主要通过增大感受野的方式以获取全局信息, 这种操作会导致图像分辨率下降以及大量语义信息丢失。

它提出了一种新的基于跨模态交互融合与全局感知的 RGB-D 显著性目标检测方法。

基于 CNN-Transformer 的模型框架图

我们针对 RGB-D 显著目标检测如何更好地挖掘局部和全局信息的问题,从 CNN 和 Transformer 各自的优势及局限性出发将 Transformer 与 U-Net 框架相结合,设计了一个新的 RGB-D 显著目标检测框架.我们利用跨模态交互融合模块对深度特征和 RGB 特征进行互补融合,并利用 Transformer 全局感知特征增强模块学习不同层级高级特征间的长距离依赖关系以增强特征表示,此外,设计了多级融合解码器以实现显著特征图的精确生成。