CIR-Net：用于 RGB-D 显著性目标检测的跨模态交互与优化

本文链接：https://blog.csdn.net/m0_59899305/article/details/146332485

摘要

摘要——针对在RGB-D显著目标检测（SOD）任务中如何有效捕捉和利用跨模态信息这一问题，我们提出了一种基于新颖的跨模态交互与优化的卷积神经网络（CNN）模型，名为CIR-Net。对于跨模态交互：1）我们提出了一种渐进式注意力引导融合单元，以便在编码器阶段充分融合RGB-D特征表示；2）我们提出了一种收敛聚合结构，在解码器阶段，通过重要性门控融合单元，将RGB和深度解码特征流入相应的RGB-D解码流中。对于跨模态优化，我们在编码器和解码器之间插入了一个优化中间件结构，在该结构中，RGB、深度以及RGB-D编码器特征通过依次使用自模态注意力优化单元和跨模态加权优化单元得到进一步优化。最后，利用逐步优化后的特征，我们在解码器阶段预测显著图。在六个流行的RGB-D显著目标检测基准数据集上进行的大量实验表明，我们的网络在定性和定量方面均优于当前最先进的显著目标检测模型。代码和结果可从链接https://rmcong.github.io/proj CIRNet.html获取。

关键词——显著目标检测，RGB-D图像，跨模态注意力，跨模态交互

一介绍

当观看一幅图像时，人们会不由自主地被图像中的某些物体或区域所吸引（例如，图1中第二张图像里的蓝精灵），这主要是由人类的视觉注意力机制所导致的，而这些物体被称为显著目标[1]–[3]。在计算机视觉领域中，模拟这种机制，显著目标检测（SOD）是一项自动定位场景中最具视觉吸引力的物体或区域的任务，它已成功应用于众多任务中，如分割[4]–[9]、检索[10]、增强[11]–[15]以及质量评估[16], [17] 。

图1. 不同方法的可视化示例。(a) RGB图像。(b) 深度图。(c) 真实标签。(d) 我们的结果。(e)-(f) 分别为由FRDT [18]和GCPANet [19]生成的显著图。

随着显著目标检测（SOD）任务研究的发展，许多子任务也得到了发展，例如协同显著目标检测（CoSOD）[20][22]、遥感显著目标检测[23]–[27]、视频显著目标检测[28]–[30]、光场显著目标检测[31]等。事实上，人类天然的双目结构也能够感知场景的景深，进而产生立体视觉。以图像的形式来表达这种深度关系的就是深度图或视差图。近年来，深度传感器的发展与普及，尤其是价格亲民且便于携带的消费级深度相机的兴起，进一步推动了RGB-D数据的应用，如深度图超分辨率[32]–[34]、深度估计[35]、超像素分割[36]以及显著目标检测[37]–[43]等。对于RGB-D图像而言，RGB图像包含丰富的细节和外观信息（例如颜色、纹理、结构等），而深度图则提供了一些有价值的补充信息（例如形状、表面法线、内部一致性等）。最近，越来越多的研究专注于将深度线索引入显著目标检测任务中，以便有效地抑制复杂场景中的背景干扰，并进一步完整地突出前景显著区域。例如，在图1中，前两张图像的背景复杂且杂乱，而第四张图像中显著目标与背景之间的颜色对比度较低。因此，对于图1最后一行所示的仅基于RGB图像的显著目标检测方法（即GCPANet [19]）而言，很难在背景干净且结构完整的情况下准确地定位显著区域。相比之下，基于RGB-D图像的显著目标检测方法（例如图1的第四行和第五行）通过引入深度信息可以缓解这一问题。值得注意的是，我们的方法具有更好的目标定位能力、完整性保持能力以及背景抑制能力。

在先前的研究工作[44]–[47]中，深度图在显著目标检测（SOD）任务中的有效性已得到验证；然而，如何有效地利用和融合RGB信息与深度线索仍是一个有待解决的问题。这是因为RGB图像和深度图属于具有不同属性的不同模态。为了实现这一目标，我们设计了三分支结构的网络来充分捕捉和利用跨模态信息。考虑到不同模态的优势和互补性，通过具有独立的RGB分支和深度分支的三分支结构，我们能够充分保留丰富的信息，并挖掘不同模态之间的互补关系，这有利于在编码器和解码器阶段，以比双分支结构更全面、更深入的方式联合融合跨模态信息。这体现在以下两个方面：

1）跨模态交互。就跨模态信息而言，我们面临的首要问题是如何让它们进行交互。具体来说，目的是了解不同模态的优势和互补性，进而获得更全面且更具判别性的特征表示。与现有的仅在编码器阶段[48], [49]或解码器阶段[37], [47], [50]进行的跨模态交互方法不同，我们致力于以更全面、更深入的方式，将跨模态信息同时整合到编码器和解码器阶段，从而充分挖掘不同模态之间的互补关系。具体而言，在特征编码器阶段，我们设计了一个渐进式注意力引导融合（PAI）单元，用于融合跨模态和跨层级的特征，从而得到RGB-D编码器的特征表示。在特征解码器阶段，我们设计了一种聚合结构，使RGB和解码器的特征以及深度解码器的特征能够流入RGB-D主流分支，并生成更全面的与显著目标相关的特征。在这种结构中，上一层的解码器特征、相应层的RGB解码器特征和深度解码器特征，通过重要性门控融合（IGF）单元以动态加权的方式整合为汇流解码器特征。然后，利用最后一层逐步优化后的解码器特征来预测最终的显著图。

2）跨模态优化。除了跨模态交互之外，从不同模态中提炼出最有价值的信息对于RGB-D显著目标检测任务来说也至关重要。为此，我们在编码器和解码器之间插入了一个优化中间件，其中包括自模态优化和跨模态优化。对于自模态优化，为了减少通道维度上的特征冗余并突出空间维度上的重要位置，我们提出了一个简单但有效的自模态注意力优化（smAR）单元，该单元用我们提出的通道-空间注意力生成方法取代了常用的渐进式交互[51]或特征融合[47]方法。我们直接在特征图空间中整合空间注意力和通道注意力，以生成一个三维注意力张量，用于优化单模态特征，这不仅降低了计算成本，还能更好地突出重要特征。此外，我们设计了一个跨模态加权优化（cmWR）单元，通过考虑跨模态互补信息和跨模态全局上下文依赖关系来优化多模态特征。受非局部模型[52]的启发，RGB特征、深度特征和RGB-D特征被整合起来，以捕捉不同模态之间的长距离依赖关系。然后，我们使用整合后的特征对不同模态的特征进行加权和优化，从而得到嵌入了跨模态全局上下文线索的优化特征，这对于感知全局信息非常重要。

综上所述，我们的方法的独特之处在于，跨模态交互与优化以全面且深入的方式紧密结合。在跨模态交互方面，为了学习不同模态的优势与互补性，我们在编码器阶段提出了渐进式注意力引导融合（PAI）单元，在解码器阶段提出了重要性门控融合（IGF）单元，以共同探索不同模态之间的互补关系。在跨模态优化方面，考虑到编码器特征的信息冗余以及全局上下文线索对于显著目标检测（SOD）的重要性，我们设计了可插拔的优化中间件结构，从自模态和跨模态的角度对编码器特征进行优化。主要贡献总结如下：

(1) 我们提出了一种端到端的跨模态交互与优化网络（CIR-Net），用于RGB-D显著目标检测（SOD）。该网络通过以交互和优化的方式充分捕捉和利用跨模态信息来实现其功能。

(2) 我们提出了渐进式注意力引导融合单元和重要性门控融合单元，分别用于在编码器阶段和解码器阶段实现全面的跨模态交互。

(3) 我们设计了包含自模态注意力优化单元和跨模态加权优化单元的优化中间件结构，通过对自模态三维注意力张量和跨模态上下文依赖关系进行编码，来优化多模态编码器特征。

(4) 在没有使用任何预处理（例如，HHA[53]）或后处理（例如，条件随机场（CRF）[54]）技术的情况下，我们的网络在六个RGB-D显著目标检测（SOD）数据集上，与当前最先进的方法相比，取得了具有竞争力的性能表现。

本文的其余部分组织如下。在第二部分中，我们简要回顾与RGB-D显著目标检测相关的研究工作。在第三部分，我们介绍所提出的CIRNet的技术细节。然后，在第四部分中进行包括与当前最先进方法的比较以及消融实验在内的各项实验。最后，在第五部分得出结论。

二有关工作

与基于RGB图像的显著目标检测（SOD）模型[55]–[59]不同，RGB-D显著目标检测模型引入了深度模态以及RGB外观信息。在过去的十年里，人们提出了大量的方法，这些方法大致可以分为传统方法[60]–[68]和基于深度学习的方法[18], [37], [39], [44]–[50], [69]–[74]。特别是近年来，基于深度学习的方法在RGB-D显著目标检测的性能方面取得了重大突破。对于RGB-D显著目标检测任务而言，如何充分利用跨模态信息并生成更具判别性的与显著目标相关的特征表示，是一个有待解决的具有挑战性的问题[75]。就模型结构而言，现有的研究工作大致可以分为单分支结构、双分支结构和三分支结构，如图2(a)-(c)所示。

图2. RGB-D显著目标检测的不同网络结构对比。(a)-(c) 分别表示单分支、双分支和三分支结构。(d) 是本文提出的结构。

对于单分支模型[72], [76]–[78]，通常采用早期特征融合策略，即将RGB图像和深度图连接成四通道，作为网络的输入。例如，赵等人[72]采用单分支编码器，以充分利用预训练网络的特征表示能力，并提出了一个实时且稳健的显著目标检测模型。张等人[76], [77]提出了首个基于条件变分自动编码器的受不确定性启发的RGB-D显著目标检测模型。季等人[78]提出了一种新颖的协同学习框架，该框架整合了边缘、深度和显著目标协同器，由于在测试期间无需深度输入，所以这是一个更轻量级且通用的网络。然而，这类模型忽略了RGB和深度模态之间的差异，并且缺乏全面的跨模态交互。

双分支模型[39], [46], [47], [50], [51], [79][82]是目前在RGB-D显著目标检测任务中应用最为广泛的结构，主要包含两个独立的分支，分别用于处理RGB和深度模态信息，并在编码器或解码器阶段生成跨模态特征。例如，李等人[46]提出了一种注意力引导的交织融合网络，该网络通过交织融合逐步且交互式地捕捉跨模态的互补性，并通过深度监督的注意力机制的引导来对显著区域进行加权。李等人[47]采用了后期特征融合策略，在解码器阶段将两个独立分支的高层RGB特征和深度特征相结合，从而生成跨模态表示。翟等人[51]利用多模态和多层次的特征设计了一种新颖的级联优化网络，RGB和深度模态能够以互补的方式进行融合。张等人[83]关注RGB和深度模态在跨模态交互中的作用，并提出了一种差异交互模式，即RGB模态和深度模态相互引导进行交互。一些研究对低质量深度图的负面影响很感兴趣，它们通过在双分支结构中控制、更新或舍弃深度信息来解决这一问题[79], [84]–[87]。陈等人[79]引入了深度质量感知，以便在双分支结构中进行跨模态交互时，控制低质量深度图的影响。陈等人[84]估计出一个额外的高质量深度图，作为对原始深度图的补充，并将所有这些深度图输入到一个选择性融合网络中，以实现RGB-D显著目标检测。陈等人[85]在双分支RGB-D显著目标检测结构中引入了一个深度质量感知子网，以定位最有价值的深度区域。

此外，一些研究[70], [88], [89]采用了三分支网络结构来进行全面的跨模态特征交互，在这种结构中，RGB、深度以及RGB-D信息分别嵌入到三个子网络中进行学习和交互。例如，范等人[88]设计了一种门控机制，利用RGB分支、深度分支和RGB-D分支的解码器输出结果来过滤掉低质量的深度图。

与现有研究相比，我们的工作在概念上与它们有所不同：我们提出的网络架构（如图2(d)所示）介于双分支和三分支网络之间，RGB-D分支是通过与单分支网络学习到的高级特征进行交互而形成的。通过这种方式，可以减少网络参数，并且我们设计的渐进式注意力引导融合（PAI）单元能够更好地构建RGB-D特征。综合考虑，我们将自己的网络归类为三分支网络架构。这也是我们的网络区别于其他网络的第一点。第二，除了在编码器阶段通过PAI单元进行跨模态特征融合外，我们还在解码器阶段进行跨模态信息交互，以获得具有判别力的显著目标预测特征。考虑到RGB和深度分支的解码器特征能够为RGB-D分支进一步提供有效的指导信息（例如，清晰的边缘、内部一致性信息），我们在整个解码器阶段设计了一种收敛聚合结构。通过这种方式，我们致力于以更全面的方式将跨模态信息同时整合到编码器和解码器阶段。第三，为了更好地建立编码器特征与解码器特征之间的联系，我们引入了一个优化中间件结构，从自模态和跨模态的角度在解码前进一步突出有效信息。值得一提的是，这种中间件结构对于三分支网络来说是可插拔的。

三提出的方法

A. 概述

图3展示了所提出的CIR-Net的总体架构，它是一种编码器-解码器三分支架构，并且在编码器和解码器之间配备了一个优化中间件。接下来，我们将详细介绍所提出的方法。

图3. 所提出的CIR-Net的概览图。从主干网络中提取的RGB特征和深度特征分别表示为，其中r和d分别代表RGB分支和深度分支，表示特征层级的索引。在特征编码器中，我们还使用渐进式注意力引导融合（PAI）单元来生成跨模态的RGB-D编码器特征。然后，将顶层的RGB、深度和RGB-D特征嵌入到由自模态注意力优化（smAR）单元和跨模态加权优化（cmWR）单元组成的优化中间件中，以自模态和跨模态的方式逐步优化多模态编码器特征。最后，RGB分支和解码器特征以及深度分支的解码器特征流入相应的RGB-D分支，以便在特征解码器阶段通过重要性门控融合（IGF）单元学习更全面的交互特征。请注意，所有三个分支都会输出一个相应的显著目标预测图，并且我们将RGB-D分支的输出作为最终结果。

特征编码器旨在学习多层次的三分支特征，即RGB、深度和RGB-D编码器特征。首先，使用主干网络（例如，ResNet50）从输入的RGB图像和深度图中提取多层次特征，分别表示为，其中是特征层级的索引。然后，将高层的RGB特征和深度特征输入到我们提出的渐进式注意力引导融合（PAI）单元中，以生成跨模态的RGB-D编码器特征。此时，就形成了三分支编码器结构，如图3左侧所示。

考虑到自模态中的信息冗余以及跨模态中的内容互补性，我们引入了一个优化中间件结构，以便在解码前进一步突出有效信息。具体而言，我们设计了一个由自模态注意力优化（smAR）单元和跨模态加权优化（cmWR）单元组成的两阶段优化机制，以自模态和跨模态的方式逐步优化多模态顶层编码器特征。

在解码器阶段，我们设计了一种新颖的收敛聚合结构。在这种结构中，RGB分支和深度分支相应的解码器特征会流入对应的RGB-D分支，以实现跨模态交互。在聚合过程中，我们提出了一个重要性门控融合（IGF）单元，该单元以动态加权的方式，将RGB分支和深度分支相应的解码器特征以及之前IGF单元的输出进行整合。最后，利用最后一个IGF单元的输出特征来推断最终的显著目标图。

B. 渐进式注意力引导融合单元

考虑到不同模态的互补性和多样性，有效的跨模态信息交互在RGB-D显著目标检测（SOD）任务中起着至关重要的作用。对于编码器-解码器网络架构而言，现有的交互策略主要是分别在编码器阶段[48], [49]或解码器阶段[37], [47], [50]单独设计的。相比之下，我们根据不同的交互目的，在编码器和解码器两个阶段都设计了专门的模块。为了实现这一点，需要解决两个关键问题：（1）在编码器阶段，如何基于多层次的RGB和深度特征有效地整合并生成RGB-D特征表示；（2）在解码器阶段，单模态分支如何能够更好地与RGB-D分支协作，以学习更具判别性的与显著目标相关的特征，并预测出更准确的显著目标图。为此，在我们的方法中，在编码器阶段提出了一个渐进式注意力引导融合（PAI）单元，在解码器阶段提出了一个重要性门控融合（IGF）单元。IGF单元将在第三部分的D小节中介绍。

具体来说，为了在编码器阶段有效地整合RGB-D特征表示，我们在设计渐进式注意力引导融合（PAI）单元时考虑了两个方面：（1）充分的多层次信息融合；（2）有效的特征选择和突出。对于前者，在编码器阶段，考虑到不同层级的特征包含着不同尺度、感受野和内容的信息这一事实。因此，设计了渐进式跨层级融合策略，以便以由粗到细的方式获得更全面的RGB-D特征表示。对于后者，尽管编码器特征包含丰富的多层次信息，但常用的融合策略（例如，拼接-卷积）可能会引入信息冗余，并且容易使特征表示产生混淆。因此，为了进行特征选择和增强，我们引入了空间注意力机制，通过突出互补信息并抑制不相关的冗余信息，来引导跨层级和跨模态的特征融合。

首先，鉴于较浅层的深度特征通常包含过多的背景噪声，而高层特征虽包含显著目标的清晰信息但缺乏细节这一事实，我们选择通过结合高层的RGB特征和深度特征来生成初始的跨模态特征，并从第三层开始进行特征的组合和前向传播，这可以描述为：

其中，分别表示第\(i\)层编码器的 RGB 特征和深度特征[·, ·]表示按通道拼接操作，conv表示一个卷积层，其后紧跟批量归一化（BN）层和 ReLU 激活函数。

然后，为了在跨层级和跨模态融合过程中突出互补信息并抑制无关的冗余信息，我们采用前一层级 RGB - D 特征生成的空间注意力图，以渐进的方式引导当前层级的特征融合。因此，第 4 层和第 5 层的最终 RGB - D 特征更新如下：

其中是按元素相乘运算，表示第(i - 1)层的注意力图，SA是空间注意力操作[90]，表示下采样操作。需要注意的是，考虑到在一些具有挑战性的情况下可能会出现不准确的注意力，我们在公式(2)中采用了残差连接，以便学习所学习到的特征与原始特征之间的最优关系，从而实现有效的特征学习。在第四部分的C小节中，我们提供了消融实验来证明这种操作的有效性。我们的渐进式注意力引导融合（PAI）单元不仅可以整合不同的模态信息，还能够以渐进式注意力加权的方式对不同层级的特征进行编码，从而生成RGB-D编码器特征。

C. 优化中间件

为了将更有效的编码器特征传递到解码器阶段，我们插入了一个优化中间件结构，作为编码器和解码器之间的连接环节，从自模态和跨模态的角度对编码器特征进行优化。对于优化中间件的设计，我们考虑了两个方面：1）每种模态的编码器特征都包含丰富的空间和通道信息，而不加区分的信息传递可能会增加学习有效特征表示的难度。因此，我们设计了一个自模态注意力优化（smAR）单元，从单模态的角度抑制背景噪声并突出重要线索；2）考虑到不同模态之间存在很强的相关性和互补性，其中RGB模态包含前景与背景的颜色对比信息，深度模态包含内部一致性信息，我们设计了一个跨模态加权优化（cmWR）单元，以捕捉多种模态的长距离依赖关系，并从全局角度优化模态特征。

1）自模态注意力优化单元：在进行特征编码后，所获得的RGB、深度以及RGB-D编码器特征包含了丰富的空间和通道信息，这些信息表征了显著目标。然而，单模态信息中会存在冗余。此外，不加区分的信息传递可能会增加特征学习的难度，甚至会对后续解码过程的推断产生干扰。因此，我们在优化中间件中设计了一个自模态注意力优化（smAR）单元，以一种全新的空间-通道三维注意力方式，从单模态的角度抑制背景噪声并突出重要线索。

空间注意力（SA）和通道注意力（CA）在现有的RGB-D显著目标检测（SOD）任务[47], [51], [56]中已被广泛应用，它们可以归纳为三种形式：（a）单独使用。在文献[56]中，空间注意力和通道注意力分别应用于低层特征和高层特征。（b）串行使用。在文献[51]中，首先使用通道注意力来生成经通道注意力增强的特征，然后再应用空间注意力以获得最终的增强特征。（c）通过特征融合的并行使用。在文献[47]中，通道注意力和空间注意力分别用于增强相同的输入特征，然后将得到的增强特征进行融合以生成最终特征。单独使用时，通道注意力和空间注意力应用于不同层级的特征，这不一定适用于所有的视觉任务。然而，串行使用对空间注意力和通道注意力的组合顺序很敏感，而并行使用中的特征融合方式在结构设计上存在一些信息冗余，并且一次只能在一个维度（即空间或通道）上增强特征，这增加了计算复杂度。为了解决这个问题，我们将空间注意力和通道注意力整合到一个空间-通道三维注意力张量中，目的在于：1）通过并行使用来增强鲁棒性，并以三维注意力的方式降低计算复杂度；2）同时在空间和通道维度上优化单模态特征。

如图4左侧所示，三个编码器分支的输出特征（即）被输入到自模态注意力优化（smAR）单元中。我们首先在并行结构中分别计算输入特征的通道注意力（CA）和空间注意力（SA），从而得到相应的空间注意力图和通道注意力图。然后，我们通过矩阵乘法在注意力图空间上直接将它们融合，以生成三维注意力张量。这一过程可以描述为：

其中表示顶层编码器层的每个模态特征，，SA和CA分别表示空间注意力[90]和通道注意力[91]操作，表示矩阵乘法。利用这个三维注意力张量，我们通过残差连接来优化每个模态的特征：

其中表示逐元素相乘运算。在第四部分C小节中，我们会进行不同注意力组合的消融实验，以此证明我们该设计的有效性。

2）跨模态加权优化单元：自模态注意力优化（smAR）单元对每个模态的编码器特征进行了优化，但并未充分利用不同模态之间强烈的相关性和互补性。例如，RGB模态包含前景与背景的颜色对比度以及物体的纹理信息，而深度模态则提供了显著目标的内部一致性和空间关系。因此，受非局部模型[52], [92]的启发，我们在优化中间件的第二阶段设计了一个新颖的跨模态加权优化（cmWR）单元，以进一步捕捉多种模态之间的长距离依赖关系。

跨模态加权优化（cmWR）单元的细节如图4右侧所示。自模态注意力优化（smAR）单元的输出特征作为输入被传入cmWR单元，其中分别表示特征图的通道数、高度和宽度。首先，我们使用瓶颈卷积层将通道数减半，并将不同模态映射到一个统一的特征空间，这可以用以下公式表示：

其中表示通过瓶颈卷积层可学习的嵌入权重。

然后，类似于缩放点积注意力机制，以逐像素的方式计算RGB特征与深度特征之间的相关性，以及RGB-D特征的自相关性：

其中是矩阵乘法运算，softmax是softmax激活函数。突出了RGB模态和深度模态之间的共同响应，而对RGB-D模态自身的依赖关系进行了建模。将分开的根本目的在于，我们希望最终的相似性交互能够在RGB-D特征空间中进行。

最后，将这两种相关性信息映射到 RGB - D 模态上，共同生成跨模态全局依赖权重，以优化原始输入特征：

其中，表示逐元素相乘，R将特征从的形状重塑为。通过由生成的跨模态全局依赖权重，我们从全局视角优化了原始输入的模态特征，这能够提升检测结果的完整性，进而提高检测精度。我们进行了多项实验，表五展示了跨模态加权优化（cmWR）单元的优势。

D.重要性封闭式融合单元

正如我们之前所强调的，跨模态信息交互对于RGB-D显著目标检测（SOD）任务至关重要。现有的方法通常只在单独的编码器或解码器阶段进行交互，但这是不够的。实际上，编码器和解码器在特征学习中扮演着不同的角色，其中编码器更侧重于一般特征的提取，而解码器则特别强调与显著目标相关特征的学习。因此，除了在编码器阶段通过渐进式注意力引导融合（PAI）单元进行跨模态特征整合之外，我们还在解码器阶段进行跨模态信息交互，以获得具有判别性的显著目标预测特征。考虑到RGB和深度流的解码器特征可以进一步为RGB-D流提供有效的指导信息（例如，清晰的边缘、内部一致性），我们在整个解码器阶段设计了一个收敛聚合结构。具体来说，同一层级的单模态特征（即RGB和解码器深度特征）将流入相应的RGB-D流中，以学习更全面的跨模态解码器特征。对于收敛聚合结构，我们面临一个具有挑战性的问题，即如何从汇聚的流中有效地选择最有价值的信息，因为不同模态信息的直接和同等组合可能会难以控制且杂乱无章。为了解决这个问题，我们设计了一个重要性门控融合（IGF）单元来学习一个重要性图，它用于以动态加权的方式有选择地控制不同模态的影响，如图5所示。通过这种方式，IGF单元可以在跨模态信息交互过程中确定不同模态补充信息的贡献。此外，有了这些可学习的重要权重，我们的网络在某些模态特征无效的情况下（例如低质量的深度图）具有一定的抗性。

图 5. 重要性门控融合（IGF）单元的架构。

首先，RGB解码器特征和深度解码器特征分别通过两个卷积层与对应的跳跃连接编码器特征相融合，从而得到融合后的解码器特征。接着，将RGB流和深度流的融合解码器特征进行拼接，以获得RGB - D解码器特征。最后，通过可学习的重要性权重，将前一个重要性门控融合（IGF）单元的特征和RGB - D解码器特征组合成当前IGF单元的输出：

其中层解码器的IGF输出特征，，表示上采样操作，是可学习的重要性权重，它衡量了RGB - D解码器特征在融合过程中的重要性。具体来说，我们首先将两个特征进行拼接，然后应用卷积来减少通道数，从而得到特征。接下来，我们使用带有sigmoid激活函数的通道注意力机制来获得重要性图

其中\(CA\)表示通道注意力操作（参考文献[91]），是Sigmoid激活函数。重要性图决定了在第i层解码器中不同模态补充信息的贡献程度。也就是说，通过这个重要性图，模型能够动态地权衡RGB - D解码器特征在与前一层IGF特征融合时所占的比重，以此更有效地整合跨模态信息，从而提升模型在RGB - D显著目标检测任务中的性能。

E.损失功能

在我们的CIR-Net（跨模态交互精炼网络）中，三个流的解码器最后一层特征被分别用来预测相应的显著图，这些显著图分别记为。对于网络训练，我们采用二元交叉熵（BCE）损失函数来同时优化RGB流、深度流和RGB-D流。最终的损失函数定义如下：

其中G是真实标签，bce是如文献[22]、[24]中所定义的二元交叉熵（BCE）损失。在测试阶段，我们仅将RGB-D流的预测结果用作最终的显著图。、

四实验

我们首先介绍六个RGB - D显著目标检测（SOD）基准数据集和三种常用的评估指标，然后阐述所提出模型的实现细节。之后，将该模型与15种最先进的基于卷积神经网络（CNN）的方法进行比较。最后，我们开展一系列消融实验，以验证所提出模块的有效性。

A. 实验设置

1）基准数据集：我们在六个广为人知的RGB-D显著目标检测基准数据集上进行了实验，这些数据集包括STEREO797 [60]、NLPR [61]、NJUD [62]、DUT [37]、LFSD [93]以及SIP [88]。 NJUD [62] 包含1985张RGB-D图像以及相应的人工标注真实标签。这些图像是从互联网和立体电影中收集而来，其中包含各种不同的物体和复杂的场景，其深度图是从立体图像中估计得到的。 NLPR [61] 由1000张包含多个显著目标的RGB-D图像组成，其中的深度图是由分辨率为640×480的Kinect相机采集得到的。 STEREO797 [60] 包含从互联网上收集的797张立体图像，其深度图也是从立体图像中估计得出的。 DUT [37] 包含1200对由光场相机Lytro拍摄的RGB-D图像，其分辨率为600×400。 LFSD [93] 是一个小规模的数据集，包含100张低分辨率的RGB-D图像，其中的深度图是通过Lytro光场相机采集得到的。 SIP [88] 包含929张分辨率高达744×992的RGB-D图像。

2）评估指标：为了对所提出方法的性能进行定量评估，我们采用了精确率-召回率（P-R）曲线、F值[60]、平均绝对误差（MAE）得分[2]以及S指标[97]。通过将显著图的阈值从0设置到255，将二值化掩码与相应的真实标签进行比较，就可以计算出精确率和召回率得分，并且不同精确率和召回率得分的变化趋势可以绘制在精确率-召回率曲线上。

F-Measure是一种通过考虑精度和召回分数的广泛使用的全面评估指标，该评分定义为：

其中，“Precision”和“Recall”分别表示精确率得分和召回率得分。并且，如文献[60]所建议的，为了强调精确率，被设置为0.3 。

平均绝对误差（MAE）得分计算的是预测的显著图\(S\)与相应的真实标签\(G\)之间逐像素的平均绝对差值，其表示为：

其中H和W分别表示图像的高度和宽度。

S指标表示预测的显著图与相应的真实标签之间的结构相似性：

其中，如文献[97]所建议的，被设置为0.5，用于平衡区域相似度和目标相似度。

3）实现细节：参照文献[39]、[47]，我们从NJUD数据集中选取1485个样本，从NLPR数据集中选取700个样本，以及从DUT数据集中选取800个样本作为训练数据。这三个数据集中剩余的样本以及另外三个数据集则用作测试数据集。在训练过程中，采用随机翻转、旋转和多尺度输入的方式进行数据增强。在训练阶段，训练样本会被随机调整大小为128×128、256×256和352×352。在推理阶段，图像会被调整为352×352的大小，然后输入到网络中以获得显著目标预测结果，且不使用任何其他的后处理或预处理技术。我们使用ResNet50和VGG16作为骨干网络来报告实验结果，网络参数使用在ImageNet [98]上的预训练参数进行初始化。采用Adam算法来优化我们的网络，批量大小设置为16，初始学习率为，每40个训练周期将学习率除以5。我们的网络是在PyTorch中实现的，并通过两块NVIDIA 2080Ti GPU进行加速。我们也使用MindSpore Lite工具2来实现我们的网络。为了更清晰地展示我们模型的训练过程，我们在图6中给出了网络的学习曲线。优化我们的网络大约需要4个小时。对于大小为352×352的图像，我们方法的推理时间为0.07秒。

图6。在培训阶段学习网络的学习曲线。

B.与最先进的方法进行比较

我们将所提出的模型与15种基于卷积神经网络（CNN）的最先进的RGB-D显著目标检测（SOD）方法进行了比较，这些方法包括DMRA [37]、FRDT [18]、SSF [49]、S2MA [50]、A2dele [39]、JL-DCF [95]、PGAR [94]、DANet [72]、cmMS [47]、BiANet [96]、D3Net [88]、UCNet [76]、ASIF-Net [46]、BBSNet [51]以及UCNet* [77]（UCNet的扩展版本）。为了进行公平的比较，所有的显著图均由发布的代码在默认设置下生成，或者直接由作者提供。

为了进一步说明我们所提出方法的优越性，我们在图7中给出了不同方法的一些可视化比较结果。从图中我们可以清楚地看到，我们提出的模型取得了卓越的性能，能够准确地定位显著目标，并呈现出完整的目标结构。对于定量评估，我们在六个基准数据集上给出了不同方法的精确率-召回率（P-R）曲线，如图8所示。P-R曲线越接近点（1, 1），算法性能就越好。显而易见，我们的模型（即红色实线）在所有六个基准数据集上，与其他对比方法相比，都获得了更高的精确率和召回率得分。此外，如表一所示，除了在SIP数据集上的平均绝对误差（MAE）指标外，我们的方法在其他方面都取得了最佳性能，这也证明了所提出方法的有效性和优越性。例如，在大规模且常用的NLPR测试集、DUT测试集和STEREO797数据集上，与表现第二好的方法相比，我们的方法在MAE得分上的最小提升百分比分别达到了3.0%、15.3%和10.7%。在小规模的LFSD数据集上，与表现第二好的模型相比，我们的方法在F值指标上的提升百分比达到了1.6%，在MAE得分上的提升百分比达到了5.0%。

表一在六个RGB-D基准数据集上基于S指标（）、最大F值（）和平均绝对误差（MAE）的定量比较结果。加粗部分表示在每种情况下的最佳结果。“类型”表示该方法是单流、双流还是三流方法。V16、V19和R50分别表示VGG16、VGG19和ResNet50。

图7. 不同方法的可视化示例。(a) RGB图像。(b) 深度图。(c) 真实标签（GT）。(d) 我们的方法。(e) A2dele [39]方法。(f) DANet [72]方法。(g) S2MA [50]方法。(h) PGAR [94]方法。(i) FRDT [18]方法。(j) JL-DCF [95]方法。(k) D3Net [88]方法。(l) BiANet [96]方法。(m) DMRA [37]方法。我们的方法在各种场景中都优于其他最先进（SOTA）的算法，这些场景包括常见场景（第1行和第2行）、不可靠或易混淆的深度图（第3行和第4行）、多个目标（第5行和第6行）、低对比度（第7行和第8行）以及小目标（第9行和第10行）。

图8. 不同方法的精确率-召回率（P-R）曲线。我们的模型（即红色实线）在全部六个基准数据集上，相较于其他对比方法，均实现了更高的精确率和召回率得分。

为了更好地说明我们方法的优势，我们从以下几个方面对定性和定量结果进行分析和总结：

从以下几个方面来看：对于一些常见场景，比如具有明显的前景-背景颜色对比度的场景、包含大尺寸目标的场景、单个目标的场景、结构简单的场景等等，尽管大多数现有的方法也能够取得不错的效果，但我们的方法更加稳定且健壮。如图7中的前两张图像所示，显著目标结构简单，并且其颜色与背景形成了强烈的对比。在这种情况下，虽然大多数的研究成果（方法）都能够有效地定位显著目标，但我们的研究成果（方法）能够获得更精确的结果，例如清晰的目标边界（比如第一张图像中叶子的尖端部分）、干净的背景抑制效果（比如第二张图像中的叶子部分）。

此外，为了验证我们的方法在具有挑战性的场景下的鲁棒性和性能，我们对测试子集进行了几项敏感性研究。定量比较结果见表二。

表二不同方法在具有挑战性场景下的定量比较。

（1）我们的方法在处理不可靠的深度图时具有一定优势。如表二（第1项）所示，我们进行了一项敏感性实验，以评估我们的方法在不可靠深度图样本上的性能。具体来说，我们从六个测试数据集中选取深度置信度\(\lambda_d\) [64]得分小于0.1的深度图作为不可靠深度图，将其标记为不可靠深度子集。如表二（第1项）所示，与表现第二好的方法（即DANet [72]）相比，我们的方法在平均绝对误差（MAE）得分、F值和S指标上的提升百分比分别达到了20.0%、4.7%和3.8%。此外，如图7中的第三张和第四张图像所示，显著目标的深度值与背景相似，这极大地干扰了显著目标的检测。由于不可靠深度信息的干扰，大多数方法（例如S2MA [50]、A2dele [39]、D3Net [88]）无法抑制背景噪声，从而导致结果不准确。得益于整体的网络架构以及有效的跨模态交互，我们的模型在面对这些不可靠因素时能够得到稳健的结果。

（2）我们的方法在处理多目标场景时具有一定优势。具体而言，我们根据真实标签从六个测试数据集中收集了所有包含多个显著目标的样本，将其标记为多目标子集。如表二（第2项）所示，与表现第二好的方法相比，我们的方法在F值和S指标上的提升百分比均达到了1.6%。此外，从图7的第五张和第六张图像中可以看出，得益于从全局角度进行的跨模态特征优化，我们的方法不仅能够正确定位所有显著目标，还能获得完整且一致的目标结构，比如第六张图像中右侧人物的内部区域。

（3）我们的方法在处理低对比度场景时具有一定优势。同样地，我们从六个测试数据集中选取了所有显著目标与背景之间的平均颜色相似度超过80%的低对比度样本（标记为低对比度子集），以验证我们的方法在这种情况下的优越性。如表二（第3项）所示，与表现第二好的方法（即SSF）相比，我们的方法在平均绝对误差（MAE）得分、F值和S指标上的提升百分比分别达到了25.9%、3.0%和3.7%。如图7的第七张和第八张图像所示，大多数现有的方法受到低颜色对比度干扰的影响，无法得到完整的结果。相比之下，我们的方法通过更好地利用跨模态的互补信息来处理这种具有挑战性的场景，从而得到更完整、准确的结果，比如人物的手部区域。

（4）我们的方法在处理小目标场景时具有一定优势。在实验中，我们从六个测试数据集中选取了所有显著目标占图像比例小于10%的样本（标记为小目标子集），以此来衡量所提出模型在小目标场景下的性能。在表二（第4项）中，与表现第二好的方法（即SSF）相比，我们的方法在平均绝对误差（MAE）得分、F值和S指标上的提升百分比分别达到了18.7%、5.5%和3.3%。从图7的第九张和第十张图像中可以看出，我们的方法能够有效地定位小的显著目标，得到的结果具有准确的位置、干净的背景以及清晰的边界。

C.消融研究

1）不同模块的分析：为了评估所提出模型中各个模块的有效性，我们在NJUD测试集、STEREO797数据集和LFSD数据集上进行了消融实验。定量评估结果和可视化示例分别见表三以及图9。我们通过如下方式简化完整模型来构建基线模型：

（1）用RGB流和深度流中第五层的特征拼接操作来替代PAI单元；

（2）移除细化中间件结构，包括其内部的自调制注意力细化（smAR）单元和跨模态加权细化（cmWR）单元；

（3）用简单的反卷积层来替代IGF（信息引导融合）单元。

图9。不同消融模型的视觉示例。

表III关于NJUD测试，Stereo797和LFSD数据集的消融研究。

我们采用逐步添加所设计模块的方式来进行消融实验。我们首先将PAI单元引入基线模型（标记为“+PAI”），然后逐步将IGF单元、cmWR单元和smAR单元添加到模型中。也就是说，“+IGF”表示“基线模型+PAI+IGF”，以此类推。此外，所有的消融模型都使用与我们的CIR-Net相同的训练配置进行训练。

图9显示，基线模型大致能够定位显著目标，但缺乏完整的结构和清晰的边界，并且许多背景区域没有得到有效抑制。与基线模型相比，引入PAI模块后获得了更完整和一致的结构信息（例如，第一张图像中的花朵），但仍然包含许多被错误检测的背景区域。从定量结果来看，在NJUD测试数据集上，F值从0.8880提高到了0.8952，在STEREO797数据集上，F值从0.8769提高到了0.8853。然后，在解码器阶段添加了用于跨模态特征融合的IGF单元后，可以获得更清晰的显著目标边界（例如，第一张图像中的花朵），并且定量性能明显提升。具体来说，在NJUD测试数据集上，F值提高到了0.9135，与“+PAI”模型相比，F值的提升百分比达到了2.0%。此外，通过引入cmWR单元从全局角度细化不同模态，我们观察到背景抑制和目标结构在一定程度上得到了改善。最后，在添加了smAR单元以从单模态角度突出重要线索后，完整模型（即图9和表三中的“+smAR”）取得了最佳性能，与基线模型相比，在NJUD测试数据集和STEREO797数据集上的F值提升百分比分别达到了4.5%和4.2%。综上所述，消融实验进一步证明了所提出模块的有效性。

2）融合三流式架构的分析：为了证明融合三流式架构的有效性，我们进行了若干实验，相关结果见表四和图10。

图10。两流结构和不同分支的视觉示例。（a）RGB图像。（b）深度图。（c）地面真相。（d）我们的结果。（e） - （g）两流结构，RGB分支和深度分支的结果。

表四在NJUD测试集、STEREO797数据集和LFSD数据集上对融合三流式架构的定量比较。

首先，我们从完整模型中移除解码器中的RGB-D分支，并通过拼接的方式融合RGB和深度分支的输出特征，以获得最终的显著图，从而构建出双流架构网络（标记为“双流”）。从定量结果来看，我们可以发现，借助三流式结构中的综合特征交互，CIR-Net比双流架构更有效。例如，在LFSD数据集上，三流式网络的F值比双流网络高出0.0209，S指标比双流网络高出0.0185。同样地，从图10所示的可视化结果中，我们可以看出三流式结构在检测准确性和完整性方面的优势。当然，性能提升是有代价的。与双流结构相比，由于使用了更多的分支，三流式设计需要更多的计算资源和参数。具体而言，由于额外的参数，三流式架构处理一张图像的推理速度为14帧每秒（fps），而双流架构的推理速度为18帧每秒（fps）。

此外，我们还分别对三个分支的显著性性能进行了量化。从图10中可以看出，RGB分支和深度分支在不同区域各有优缺点，但我们最终的RGBD分支能够集中两者的优点并抑制其缺点，从而实现更好的效果，具有更清晰的边缘和完整的结构。在定量比较方面，可以发现，借助有效的跨模态特征交互，与RGB分支的性能相比，最终的RGB-D显著性性能得到了显著提升。例如，在LFSD数据集上，与RGB分支相比，F值从0.8324提高到了0.8828，提升了6.0%；S指标从0.8339提高到了0.8753，提升了5.0%。这些实验证明了所提出模型架构的稳健性和有效性。

3）细化中间件的分析：我们在表五中进行了各种消融实验，以验证细化中间件的有效性。

表五在NJUD测试集、STEREO797数据集和LFSD数据集上针对中间件所做的消融实验。

就所提出的自调制注意力细化（smAR）单元而言，我们用单通道注意力权重（标记为“含通道注意力，无空间注意力（w/ CA, w/o SA）”）、单空间注意力权重（标记为“无通道注意力，含空间注意力（w/o CA, w/ SA）”）以及以串行方式使用空间注意力-通道注意力组合（标记为“SA-CA”）来替代三维注意力张量。从表五可以看出，所提出的smAR单元比其他常用的注意力变体更为有效。例如，在STEREO797数据集上，与以串行方式使用空间注意力-通道注意力组合模块相比，带有smAR单元的完整模型的F值达到了0.9139，提升了1.6%，S指标的提升百分比为1.5%。

就所提出的跨模态加权细化（cmWR）单元而言，我们用仅使用（标记为“使用，不使用”）和仅使用（标记为“不使用，使用”）的情况来替代最终的权重图（即），以此来展示cmWR单元的优势。从表五中所报告的定量比较结果来看，我们可以发现这种方式比单独使用权重图更为有效。例如，在LFSD数据集上，与仅使用的情况相比，F值得分从0.8582提高到了0.8828，提升了2.9%；S值得分从0.8462提高到了0.8753，提升了3.4%。

4）对PAI和IGF单元中不同特征交互策略的分析：为了验证我们对PAI和IGF单元的设计的有效性，我们进行了各种实验，结果如表六所示。

表VI 在NJUD测试集、STEREO797数据集和LFSD数据集上对PAI和IGF单元所做的消融实验。

就PAI单元而言，我们添加了两项消融实验。其中一项是验证不同层的组合与传播效果，另一项是用相应层中融合的跨模态RGB-D特征来替换空间注意力图（标记为“变换融合（Trans Fusion）”）。从表六中可以看出，从第三层开始进行组合（完整模型）能取得最佳性能，并且PAI单元比常用的特征融合策略更有效。例如，在LFSD数据集上，与从第一层开始进行前向传播的情况相比，F值得分从0.8555提高到了0.8828，提升了3.2%；与特征融合策略相比，S值得分从0.8480提高到了0.8753，提升了3.2% 。

就IGF单元而言，我们用相加操作（标记为“使用相加（w/ add）”）或拼接操作（标记为“使用拼接（w/ cat）”）来替代动态融合策略，以此来证明IGF单元的有效性。从表六中可以看出，借助所提出的IGF单元，与常用的融合策略（相加或拼接）相比，性能得到了提升。例如，在LFSD数据集上，与拼接操作（即“使用拼接（w/ cat）”）相比，F值得分从0.8605提高到了0.8828，提升了2.6%；S值得分从0.8518提高到了0.8753，提升了2.8%。

5）残差连接的分析：为了证明残差特征的有效性，我们进行了消融实验，即移除公式（2、5、8）中的相加操作。定量结果见表七。与仅使用直接乘法操作相比，我们带有残差连接的方法取得了更好的定量性能。例如，在表七中，与移除公式（2）中相加操作的结果相比，在LFSD数据集上，F值从0.8500提高到了0.8828，提升了3.9%，S指标的提升百分比达到了3.4%。同样地，移除公式（5、8）中的相加操作也会导致性能下降。

表七在NJUD测试集、STEREO797数据集以及LFSD数据集上针对公式（2、5、8）中相加操作所做的消融实验。

6）对不同场景有效性的分析：当深度图不可靠时，通过编码器阶段PAI单元的跨模态交互，RGB-D分支的特征能够利用RGB和深度模态之间的相关性来突出显著区域。此外，在解码器阶段，IGF单元能够有选择地确定深度模态的贡献，从而抑制深度模态中不可靠信息的干扰。为了验证PAI和IGF单元在不可靠深度图上的有效性，我们在不可靠深度子集上添加了两项消融实验，分别是用RGB和深度分支中第五层的特征拼接来替代PAI单元（标记为“无PAI（w/o PAI）”），以及用直接的特征拼接来替代IGF单元（标记为“无IGF（w/o IGF）”）。如表八左侧所示，可以发现，在移除PAI单元和IGF单元后，模型对不可靠深度图的检测效果下降了。例如，有了PAI单元，F值从0.8886提高到了0.9022，提升了1.5%。同样地，有了IGF单元，F值从0.8978提高到了0.9022，提升了0.5%。

表VIII消融研究对不可靠的深度图和多对象场景中不同模块的研究。

此外，对于包含多个显著目标的具有挑战性的场景，cmWR单元可以通过计算长距离依赖关系来提取跨模态全局上下文信息，从而从全局角度对特征进行细化，并提高显著性检测结果的完整性。同样地，我们添加了一项消融实验来证明cmWR单元在多目标场景中的有效性。如表八右侧所示，与没有cmWR单元的模型（标记为“无cmWR（w/o cmWR）”）相比，F值从0.8626提高到了0.8715，提升了1.0%。

D.讨论

1）失败案例：几个具有代表性的失败案例如图11所示。我们可以发现，在以下几个方面很难完美地定位显著目标： 1）多个小的显著目标。在第一个场景中，尽管多个显著目标在场景中具有相同的特征，但离镜头较远的显著目标太小了，以至于相应的深度图无法提供这些目标的有效深度信息。因此，在这样的场景中很难完全检测到所有的显著目标。 2）高对比度但并非显著目标。在第二个场景中，很明显在深度图中自行车座椅与背景形成了鲜明的对比。然而，真正的显著目标——红色标志，在RGB图像中与自行车座椅也形成了强烈的对比。因此，这种冲突所带来的模糊性使得我们的模型无法准确地将红色标志检测为显著目标。 3）复杂的背景噪声。在第三个场景中，由于显著目标与RGB图像背景之间的对比度较小，并且深度图中存在误导性的深度信息，我们的算法无法有效地抑制背景。值得注意的是，对于上述具有挑战性的场景，近期最先进的方法（S2MA [50]和DANet [72]）也无法正确地检测出显著目标。

图11. 失败案例的可视化示例。(a) RGB图像。(b) 深度图。(c) 真实标注（Ground Truth，GT）。(d) 我们的方法的结果。(e) S2MA方法 [50] 的结果。(f) DANet方法 [72] 的结果。

2）未来工作：未来，可以在三个方面展开进一步的研究。首先，我们的论文主要聚焦于如何更全面、有效地实现跨模态交互，并没有专门考虑深度图质量不可靠时的解决方案，只是使用了一些控制机制（例如，cmWR和IGF模块）来降低低质量深度图带来的负面影响。在现有的深度成像设备条件下，如何在深度图质量较差的情况下稳定且明确地实现显著目标检测，是一个值得研究的问题。其次，众所周知，基于深度学习的方法是数据驱动的。因此，在大多数情况下，更多的训练数据能够提高深度模型的泛化能力。如表九所示，当舍弃NLPR数据集的训练数据时（即“无NLPR”），最终的性能都有所下降，但下降程度各不相同。例如，在STEREO797数据集上，F值仅下降了0.5%，但在LFSD数据集上却下降了4.4%。如此说来，构建更大的数据集，或者在保证性能的前提下减少对数据量的依赖，可以作为未来的研究方向。此外，弱监督的RGB显著目标检测（SOD）任务已经受到了广泛关注，但在RGB-D显著目标检测方面的关注却很少。探索使用更少监督信息的RGB-D显著目标检测模型可以减少对数据标注的依赖，这是一个非常有价值且前景广阔的研究方向。最后同样重要的是，基于双流和三流式的RGB-D显著目标检测模型已经取得了令人满意的性能，但作为一项基础的预处理任务，如何在保持性能的同时追求实时效率，也是一个有价值的研究点。

表九在NJUD测试集、STEREO797数据集和LFSD数据集上，对不使用NLPR训练数据集的我们的方法的定量评估。

五结论

在这项研究工作中，我们针对RGB-D显著目标检测（SOD）任务提出了一个名为CIR-Net的端到端网络。我们算法的优势源自于模型架构与技术模块之间的协同作用。

从模型架构的角度来看，我们设计了一种新型的类三流式模型架构，以便更全面地实现跨模态信息交互。众所周知，双流模型是目前在RGB-D显著目标检测（SOD）任务中应用最为广泛的结构，主要包括一个RGB分支和一个深度分支，能够在特征编码器或解码器阶段实现跨模态交互。然而，双流模型只能完成RGB和深度模态之间的交互，却忽略了RGB-D模态的作用。相比之下，三流式结构有机会对RGB、深度以及RGB-D模态之间的相关性和交互作用进行建模。此外，我们所提出的模型架构也与现有的三流式结构有所不同。一方面，我们的RGB-D流的生成并非从零开始学习，而是通过PAI模块融合RGB分支和深度分支的高层特征得到的，这能够使学到的RGB-D特征更具判别性，并减少计算量。另一方面，我们在解码器阶段采用了一种清晰的收敛结构，以实现以RGB-D模态为中心的信息交互，这能够进一步捕捉三种模态（即RGB、深度和RGB-D）之间的互补性，从而获得更具判别性且与显著性相关的特征。

从技术设计层面来看，正如我们的论文标题所示，本文主要做了两件事：跨模态交互和跨模态细化。对于跨模态交互，与现有的仅在编码器或解码器阶段进行的跨模态交互方法不同，我们致力于以更全面、更深入的方式，将跨模态信息同时整合到编码器和解码器两个阶段中。具体而言，在特征编码器阶段，我们设计了一个PAI单元来融合跨模态和跨层级的特征，从而得到RGB-D编码器的表征。在特征解码器阶段，我们设计了一个配备IGF单元的收敛结构，使RGB和解码器的深度特征流入RGB-D主流分支，并有效地从RGB和深度模态中选择最有价值的补充信息，以获得更具判别力的跨模态显著性预测特征。对于跨模态细化，我们在编码器和解码器之间插入了一个细化中间件，以便从自模态和跨模态的角度，在解码前进一步突出有效信息。具体来说，我们以三维张量的方式提出了一个简单而有效的smAR单元，以减少通道维度的特征冗余，并强调空间维度的重要位置。此外，我们还提出了一个cmWR单元，通过考虑跨模态互补信息和跨模态全局上下文依赖关系来细化多模态特征。值得一提的是，这样的中间件结构对于三流式网络是可插拔的。

模型结构与技术模块之间的相互协作与促进，使得我们的方法在六个数据集上无论是在定性方面还是定量方面，都能取得具有竞争力的性能表现。