SwinNet: Swin Transformer Drives Edge-Aware RGB-D and RGB-T Salient Object Detection

一只懒洋洋

已于 2024-01-12 15:04:55 修改

阅读量2k

点赞数 27

分类专栏：多模态目标检测论文文章标签： transformer 目标检测深度学习

于 2024-01-10 20:45:24 首次发布

本文链接：https://blog.csdn.net/qq_50988206/article/details/135511640

版权

本文介绍了一种结合SwinTransformer和RGB-D、RGB-T数据的显著目标检测模型SwinNet。模型利用SwinTransformer的特性融合模态特征，并通过空间对齐、通道校准和边缘引导提升性能。文章还详细描述了如何在GitHub上的代码库中复现实验以及遇到的常见问题及其解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

期刊：IEEE Transactions on Circuits and Systems for Video Technology(2022)

代码网址：GitHub - liuzywen/SwinNet

3.2 Two-stream Swin Transformer backbone

3.3 Spatial alignment and channel re-calibration module

3.4 Edge-aware module

3.5 Edge-guided decoder

3.1 将对应的代码和数据集上传到服务器上

3.2 将根目录下的options.py里的路径更改成自己的路径

3.3 上传预训练模型 swin_base_patch4_window12_384_22k.pth

BUG1：FileNotFoundError:

{Errno 2} No such file or directory:'./swin_base_patch4_window12_384_22k.pth'

BUG2：FileNotFoundError:

{Errno 2} No such file or directory:'/root/autodl-tmp/SwinNet/cpts/RGBDSwinTransNet.log'

BUG3：SystemError: tile cannot extend outside image

BUG4：ZeroDivisionError:float division by zero

一、论文阅读笔记

1、摘要

卷积神经网络 (CNN) 擅长提取某些感受野内的上下文特征，而Transformers可以对全局远程依赖特征进行建模。通过吸收变压器的优势和CNN的优点，Swin Transformer具有较强的特征表示能力。在此基础上，我们提出了一种用于 RGB-D 和 RGB-T 显着目标检测的跨模态融合模型 SwinNet。由 Swin Transformer 驱动以提取分层特征，通过注意力机制增强来弥合两种模态之间的差距，并以边缘信息引导以锐化显着对象的轮廓。具体来说，双流 Swin Transformer 编码器首先提取多模态特征，然后提出空间对齐和通道重新校准模块来优化层内跨模态特征。为了澄清模糊边界，边缘引导解码器在边缘特征的指导下实现层间跨模态融合。所提出的模型在 RGB-D 和 RGB-T 数据集上优于最先进的模型，表明它提供了对跨模态互补任务的更多见解。 https://github.com/liuzzywen/SwinNet

2、主要贡献点：

1、提出了一种基于Swin Transformer主干的RGB-D和RGB-T任务的新型SOD模型(SwinNet)。它从 Swin Transformer 主干中提取判别特征，该主干吸收卷积神经网络的局部优势和 Transformer 的远程依赖优点，优于最先进的 (SOTA) RGB-D 和 RGB-T SOD 模型。

2、新设计的空间对齐和通道重新校准模块用于基于注意机制优化每个模态的特征，实现层跨模态融合从空间和通道方面。

3、该算法在边缘感知模块的引导下实现了层间跨模态融合，生成了更清晰的图像轮廓。

3、方法：

3.1 网络的总体结构图：

3.2 Two-stream Swin Transformer backbone

每个Swin Transformer首先通过块嵌入将输入的单模态图像分割成不重叠的块。颜色流中每个patch的特征被设置为原始像素RGB值的拼接，而深度流的特征被设置为三个复制深度值的拼接。然后，将它们送入多阶段特征变换中。随着网络深度的增加，通过补丁合并层逐渐减少令牌数，得到各模态的层次表示，分别为 $^{{\left \{ ST_{_{i}}^{c} \right \}_{i=1}}^{4}}$ 和 $^{{\left \{ ST_{_{i}}^{d} \right \}_{i=1}}^{4}}$ 。