动机
现有RGB-D SOD模型的大尺寸,高计算成本和慢推理速度阻碍了它们嵌入式设备上的部署。
方法
一种名为AirSOD的新方法,该方法致力于轻量级RGB-D SOD。
一、摘要
AirSOD——致力于轻量级RGB-D SOD。首先
(1)高资源的需求阻碍了最先进的(SOTA)方法在计算能力有限的移动设备上的部署。因此,需要付出更多的努力设计一个混合特征提取网络,包括MobileNetV2的前三个阶段和并行注意力转移卷积(PAS)模块。使用新的PAS模块能够捕获远程依赖性和局部信息,以增强表示学习,同时显著减少参数数量和计算复杂度。其次,提出了一个多级多模态特征融合(MMF)模块来促进特征融合,以及一个用于特征集成的多路径增强特征细化(MFR)解码器。来实现轻量级和实时的模型。
(2)骨干网络学习强大的局部特征并在高级特征中捕获远程上下文信息的能力至关重要。此外,这是必要的,以保持较小数量的模型参数和较低的计算复杂度,从而实现更快的推理速度。然而,由于固定的几何结构,卷积运算只能在窗口区域内获取局部信息,这阻止了性能的进一步提升。因此,有必要增强骨干网络学习本地特征和捕获远程依赖关系的能力。
(3)高级特征包含丰富的上下文信息,而低级特征具有更详细的信息。多级RGB和深度特征的有效融合是重要的。DFMNet合并了所有阶段的RGB和深度特征,这可能导致计算复杂性和模型大小的增加。因此,需要进一步探索有效的多模态特征融合和计算复杂性之间的权衡。
并行注意力转移卷积PAS模块:嵌入到特征提取网络的最后两个阶段。它由两个并行分支组成:一个用于学习远程上下文信息,另一个用于实现像素之间的局部通信。主要思想——不仅高级特征中的远程上下文信息很重要,而且每个像素与其周围上下文像素之间的局部通信有利于学习强大的显著特征。更重要的是,PAS模块的换档操作是无参数的。
多层次和多模态特征融合的MMF模块:通过多尺度特征学习和多模式特征融合可以更好地学习显著区域的语义信息。文章只在最后三个阶段进行特征融合。由于高级功能的分辨率较低,该策略可以在效率和性能之间实现更好的权衡。最后,提出了一种用于最终特征聚合的特征细化模块的多路径增强。
在特征提取网络的最后两个阶段嵌入PAS模块。它可以有效地捕捉长距离的上下文信息和局部特征,以增强表示能力。此外,所提出的PAS模块可以显著降低参数,使AirSOD更高效。•我们设计了一个MMF模块来进行多级和多模态特征融合。我们的MMF可以集成最具鉴别力的RGB和深度特征,并进行位置相关的多级特征融合。此外,MMF模块仅在最后三个阶段采用,以节省计算开销。
二、相关工作
一种轻量级网络AirSOD来解决问题,该网络具有更少的计算开销,更少的模型参数和更快的推理速度,同时还保持了相当的性能。我们明确开发了PAS模块来收集远程和本地信息,以提高特征提取网络的表示能力。此外,所提出的PAS模块可以显着减少模型的大小。我们还设计了一个MMF来捕获和利用多模态信息的交互方法。
三、整体框架
所提出的AirSOD的整体架构由编码器、MMF模块和MFR解码器组成。编码器包括MobileNetV2 的前一部分和建议的PAS模块。MFR解码器由五个MFR模块组成。
1、PAS模块
MobileNetV2的最后两个阶段仍然是参数密集型的。最后两级占整个MobileNetV2架构的比例为87%。为减少最后两个阶段的计算复杂度,设计一个混合特征提取网络,网络包括MobileNetV2的前三个阶段和作为最后两个阶段的PAS模块的两个序列。PAS模块如图所示。在潜在空间中结合PAS模块减少了参数的数量和计算复杂度。此外,该方法能够聚合远程和本地信息,这可以提供有用的上下文信息,以帮助显著对象检测。
PAS模块包括交叉关注和移位卷积分支。注意力分支专注于捕获长距离上下文信息。移位卷积分支可以通过移位运算进行局部信息提取,从而增强网络的表示能力。
具体地,将输入的C通道特征图Fr i(i ∈ {3,4})扩展为2C通道特征图,表示为Fe。然后将扩展的特征图沿着通道维度均等地分成两组,表示为Fe 1和Fe 2。对于每个部分,执行不同的操作来生成具有代表性和区分性的特征图。首先,第一个分支中引入了交叉注意力,使用轻量级计算操作来建模长距离依赖关系。注意力分支在交叉方向上捕获上下文信息,以提高逐像素表示能力。如图,给定特征映射Fe1∈ RH×W×C,注意分支在Fe1上使用三个具有1 × 1核大小的卷积层,分别产生自注意中的查询(Q),键(K)和值(V)矩阵,获取Q和K后,执行仿射运算以生成相关矩阵A 。第二个分支中采用基于移位卷积的网络,保持更少的计算开销,增强每个像素与其相邻像素之间的局部通信。移位卷积分支首先将C通道特征图Fe 2划分为四个组,并将它们沿不同方向移位。之后,移位卷积分支通过深度可分离卷积(DConv)层和具有1×1普通卷积层执行初始编码,由于移位卷积分支有两个编码层,我们在一个编码层中跨宽度移动特征,在另一个编码层中跨高度移动特征,就像轴向注意力一样。移位操作增强了每个像素与其相邻像素之间的局部通信。其中ShiftW和ShiftH分别表示沿宽度和高度移位操作。BN表示批量归一化。最后,将两个分支输出特征连接进行1 × 1卷积,以生成有区别的2C通道特征图。采用剩余连接的方法,保留了更多的原始特征。特征表示实现了相互增益,提高了显著对象检测的鲁棒性。
2.MMF模块
高层特征中含有丰富的语义特征,文章只在最后三个阶段进行多层次、多模态的特征融合,而放弃了前两个高分辨率的特征融合,以节省保存计算开销。两个输入特征分别由深度流和RGB流的第i(i ∈ {3,4,5})级产生。应用全局平均池(GAP)从输入特征中获得全局统计信息。得到的两个特征向量分别馈送到FC全连接层中,随后是softmax函数σ(·),以获得相应的通道注意向量CAd i 和CAr i,反映深度和RGB特征的重要性。为了保留来自深度流和RGB流两者的最显著通道,使用最大值函数来收集注意向量CAr i和CAd i。然后,通过归一化运算N(·)馈送所得向量,以将输出重新缩放到从0到1的范围。因此可以获得交互式通道注意向量CAi:
其用于增强对应的RGB和深度特征。其中Fe_r i和Fe_d i分别指示增强的RGB和深度特征:
采用具有位置信息的轴向注意力来更好地进行多层次和多模态特征融合。现有的多模态特征融合方法不应用位置信息,削弱建模位置相关的相互作用,如形状或空间结构的能力。文章将位置项增强为上下文相关的,使得融合模块位置信息敏感。具体地,特征图Fe_r i、Fe_d i和Fi-1分别被应用于经由1×1卷积层生成Q、K和V,其中Fi-1表示前一级的融合特征。首先经由矩阵乘法生成具有位置信息Qrq、Krk的相关矩阵Qk和Q,K。然后,特征向量QK,Qrq和Krk通过逐元素求和收集用于多模态特征融合。最后,我们通过聚合特征向量V来进行多级特征融合,因为V来自网络的最后一级。融合过程可以定义为:
Fi表示具有多尺度和多模态特性的融合特征。可学习向量rq,rk是查询、键的位置编码,rv是值的位置编码。由于位置编码向量在注意力头之间共享,因此它们不会导致显著的参数增长。
3.MFR解码器
解码器是由五个MFR模块组成,有效地利用低级和高级特征以实现准确性和轻量级之间的平衡,使解码器具有有效性和高效率。为了像素级的功能细化,每个模块收集两个生成的特征。MFR模块中有两个组件:像素级细化和多径信道增强。前一部分用于进行像素级细化,而后一部分用于执行通道增强。 首先使用高级特征F i+1通过逐元素乘法来细化较低的特征Fi。在逐元素乘法运算之前,将高级特征Fi+1的大小调整为与低级特征Fi相同的大小。聚合多级特征的级联。聚合特征F包含更丰富的语义信息,并采用1 × 1卷积对信道进行降维:
多层次的特征包含多尺度表示,多尺度学习在多层次特征聚合中起着重要作用。 级联特征F平均分成三组,分别记为FSn,进行多尺度注意收集。对于三个分裂特征Fs n,应用具有1,2,3的膨胀率的三个3 × 3深度可分离卷积(DConv)来学习多尺度信息。每个MFR模块的集成表示可以通过多个分裂的元素相加来获得。每个MFR模的组合表示是:
使用跨空间维度的GAP 收集具有通道统计的全局上下文信息,用于通道增强。此外,两个全连接层自适应学习每个分裂的权重:
最后,MFR模表示F 的加权融合使用分裂上的加权组合来聚合:
其中,Wn表示基于全局上下文表示Wc 2的每个分割的分配权重:
其中split表示拆分操作,其将Wc 2等分为三个部分。特征映射通道的相互依赖性在降维后被打乱。通道增强背后的动机是对特征映射通道之间的相互依赖性进行建模,其利用全局上下文信息来选择性地突出显示特征映射。通过增强这些特征,它们可以有效地用于模型后续阶段的像素级细化。
总结
提出了一种名为AirSOD的新方法,旨在实现轻量级RGB-D SOD。设计了一个PAS模块,它能够收集远程上下文和本地信息,以提高表示学习,同时显着减少参数的数量。然后设计了一个多模态特征融合模块,进行多层次多模态的特征融合。最后提出了一个MFR解码器的最终显着对象检测。在该模块的配合下,AirSOD在一定程度上提高了RGB-D SOD任务的性能,同时具有更少的模型参数、更快的推理速度和更低的计算复杂度。