CVPR2021论文笔记
题目:Deep RGB-D Saliency Detection with Depth-Sensitive Attention and Automatic Multi-Modal Fusion
方向:显著目标检测
下载地址:https://arxiv.org/abs/2103.11832
全文翻译
使用深度敏感注意力和自动多模态融合的深度RGB-D显著性检测
摘要
RGB-D显著目标检测(SOD)通常表示为两种模态的分类或回归问题,即RGB和深度两种模态。因此,有效的RGB-D特征建模和多模态特征融合都在RGB-D显著目标检测中起着至关重要的作用。在本文中,我们提出了一个深度敏感的RGB特征建模方案,利用深度方向上的几何先验显著目标。原则上,该特征建模方案是在深度敏感注意力模块中进行的,通过捕获深度几何先验信息,增强RGB特征和抑制背景干扰。此外,为了进行有效的多模态特征融合,我们进一步提出了一种RGB-D显著目标检测的自动结构搜索方法,该方法能够从我们专门设计的多模态多尺度搜索空间中找到一种可行的结构。在七个标准基准上的大量实验证明了该方法的有效性。
1.引言
近年来,由于RGB-D显著目标检测(SOD)的广泛应用,如图像检索[25,36]、视频分割[20,55]、人物再识别[62]、视觉跟踪[27,41],得到了很大的发展。通过多模态输入(即RGB和深度通道),RGB-D SOD旨在定位和分割场景中视觉上显著的区域,并且通常在端到端深度学习管道中投射为图像以掩盖映射问题[22,23,45,49]。
在RGB-D SOD中,深度图是RGB通道的重要补充信息,它提供了空间结构、三维布局和对象边界等有用的线索。为了有效的学习,RGB-D SOD通常要解决两个关键问题:1)如何充分利用丰富的深度几何信息进行显著性分析,2)如何在RGB和深度特征之间有效地进行多模态特征融合。本文致力于建立一个能够自动学习RGB-D特征交互结构的深度敏感SOD模型。
在最近的文献中,RGB-D-SOD方法通常将深度通道作为辅助输入通道,直接输入到卷积神经网络(CNN)中进行特征提取[7,21,31,43,59]。因此,它们不能很好地利用深度先验知识来获取显著物体的相应几何布局。如图1所示,显著对象通常分布在几个特定的深度间隔内,因此可以通过定期滑动深度间隔窗口来粗略地检测。受这一观察的启发,我们有一个直观的想法,即我们可以提取关于深度的RGB特征,以便有效地捕获显著对象上的深度方向的几何先验信息,同时减少背景干扰(例如,杂乱的对象或类似的纹理)。基于这个动机,我们提出将原始深度图分解为多个区域,每个区域包含一组来自相同深度间隔的像素。然后,提出了一种深度敏感注意模块(DSAM)对不同区域进行RGB特征提取,从而实现了基于深度几何先验的RGB特征增强。
此外,设计有效的RGB与深度分支交互结构是RGB-D多模态特征融合的关键。一般来说,现有文献通过大量的尝试和错误,严重依赖于人类的专业知识,例如流阶梯模块[59]和流体金字塔集成模块[61]。此外,RGB和深度通道上的多源信息具有极大的异构性,使得特征融合设计具有一定的难度和启发性。基于这一观察,我们利用神经结构搜索(NAS)[3,13,37]来自动探索一个有效的特征融合模块。然而,仅仅将现有的NAS思想从图像分类/分割移植到RGB-D SOD是不够的,因为这项任务需要多模态多尺度特征的嵌套组合。为此,我们构建了一个新的搜索空间,用于RGB-D SOD多尺度多模态特征融合。因此,自动发现特征融合架构VGG-19[53]为主干,实现了最先进的性能。
我们的贡献总结如下:
- 我们提出了一个深度敏感注意力模块,通过深度先验知识来明确消除背景干扰,增强RGB特征。
- 我们为RGB-D-SOD中的异构特征融合设计了一个新的搜索空间,并首次尝试将NAS引入RGB-D-SOD。
- 最后,我们在七个基准上进行了广泛的实验,这表明我们的方法优于其他最先进的方法。
2.相关工作
2.1.RGB-D显著目标检测
早期的RGB-D显著性检测方法[23,30,45,51]设计了手工制作的特征,如对比度[45]、形状[15]、局部背景包围[23]等。近年来,基于CNN的RGB-D方法由于其强大的特征识别能力,在性能上取得了质的飞跃。现有的RGB-D方法大致可分为单流模型[39、45、52、54、63、64]和多流模型[7–11、21、43、59]。单流架构采用了一种简单的方式来融合RGB图像和深度线索。例如,Peng等人[45]直接连接RGB-D对作为4通道输入,以预测显著性图。DANet[63]使用单流网络和增强的双重注意来检测显著的目标。对于多流模型,该框架采用两个并行网络分别提取RGB和深度特征,然后将多模式特征与各种策略融合。例如,Chen等人[9]设计了一个多分支网络来融合不同路径中的深浅交叉模态互补,然后在[7]中提出使用残差连接和互补感知监督来显式地挖掘交叉模态互补。最近,Zhang[59]提出了一种非对称双流结构,并为RGB流设计了流阶梯模块,为深度流设计了深度注意模块。
虽然这些方法已经取得了巨大的成功,但深度线索只能直接作为特征抽取器的输入。在本文中,基于我们的观测,我们进一步挖掘了包含丰富几何先验知识的深度信息。然后,利用深度线索明确消除背景干扰,提出了一种有效的深度敏感注意模块用于RGBD显著目标检测。
2.2.神经结构搜索
神经结构搜索(NAS)旨在实现网络结构设计过程的自动化。早期的NAS工作是基于强化学习[3,66]或进化算法[13,50]。尽管取得了令人满意的性能,他们已经消耗了数百个GPU天。最近,单次方法[4,6]通过训练一个父网络,使每个子网络都可以继承权值,极大地解决了耗时的问题。DARTs[37]是基于梯度的NAS的先驱,它使用梯度来有效地优化搜索空间。此后,NAS被广泛应用于许多计算机视觉任务中,如目标检测[26,56],语义分割[34,35]等。
然而,在RGB-D显著目标检测中,多模态特征融合结构仍然是手工设计的。尽管目前已有多个NAS工程[46,57]用于多模式融合,但它们的设计目的特别是用于视觉问答任务[57]或图像音频融合任务[46]。据我们所知,我们的工作是首次尝试利用NAS算法来解决RGB-D多尺度多模态特征融合问题。
3.方法
在本节中,我们将详细说明所提出的深度敏感注意和自动多模态融合( D S A 2 F DSA^2F DSA2F)框架。首先,我们简要介绍了拟议框架的概况。然后,我们描述了提出的深度敏感注意。接下来,我们详细介绍了用于自动多模态多尺度特征融合的任务特定模块。最后,对整个优化策略进行了说明。
3.1.概览
在
D
S
A
2
F
DSA^2F
DSA2F中,整个网络由RGB分支、深度分支和专门设计的融合模块组成,如图2所示。RGB分支基于VGG-19[53],深度分支是一个轻量级深度网络,用于获取不同尺度的深度特征。
我们在RGB分支的每个下采样层后面插入一个深度敏感注意模块(DSAM)。每个DSAM使用一个原始深度图来增强RGB特性。具体来说,我们将原始深度图分解为多个区域。每个区域包含来自相同深度分布模式的像素值,作为一个空间注意图来提取相应的RGB特征。
为了自动融合增强的RGB特征和深度特征,提出了一种多模态多尺度特征融合模块。在RGB-D SOD文献[21,31,32,47,59,60,63]中,有三个一致的原则是显而易见的:1)同一尺度的不同形态的特征总是融合的,而不同尺度的特征是选择性融合的。2) 低层特征往往在最终预测前与高层特征相结合,因为低层特征具有丰富的空间细节,但缺乏语义信息,反之亦然。3) 注意机制是实现不同形态特征融合的必要条件。根据这些常用的方法,我们设计了一个新的适合于多模态多尺度融合的搜索空间,它包含了四种不同的结构,即多模态融合(MM)、多尺度融合(MS)、全局上下文聚合(GA)和空间信息恢复(SR)单元。
3.2.深度敏感注意力模块
我们提出了一种深度敏感的RGB特征建模方案,包括深度分解和深度敏感注意模块。原始深度图按以下步骤分解为 T + 1 T+1 T+1个区域。首先,我们将原始深度图量化为深度直方图,并选择深度直方图的 T T T个最大深度分布区间(对应于深度间隔窗口)。然后,使用这些深度间隔窗口,可以将原始深度图分解为多个区域,并且直方图的剩余部分自然形成最后一个区域,如图3(a)所示。最后,将每个区域的数值归一化为[0,1]作为后续过程的空间注意掩码。
在获得这些注意力掩码后,我们具体描述深度敏感注意力模块。在DSAM中,所获得的注意力掩码在RGB分支中产生了
T
+
1
T+1
T+1个子分支,正如图3(b)所示。令
F
k
r
g
b
∈
R
C
k
×
H
k
×
W
k
F^{rgb}_k \in R^{C_k \times H_k \times W_k}
Fkrgb∈RCk×Hk×Wk为RGB分支的第k个阶段的特征图,其中
C
k
C_k
Ck、
H
k
H_k
Hk和
W
k
W_k
Wk分别表示通道数量、宽和高。令
b
t
b_t
bt为上述深度分解过程中获得的第t个注意力掩码。我们对掩码进行最大池化操作,令其尺寸与
F
k
r
g
b
F^{rgb}_k
Fkrgb相匹配:
p
t
=
M
a
x
P
o
o
l
(
b
t
)
(
1
)
p_t=MaxPool(b_t) (1)
pt=MaxPool(bt)(1)
其中,
p
t
∈
R
H
k
×
W
k
p_t \in R^{H_k \times W_k}
pt∈RHk×Wk。接下去,我们利用尺寸调整好的掩码,{
p
1
p_1
p1,
p
2
p_2
p2, … ,
p
T
+
1
p_{T+1}
pT+1},提取
T
+
1
T+1
T+1个平行子分支中的深度敏感特征。具体来说,我们让每个掩码
p
t
p_t
pt与RGB分支每个通道的特征
F
k
r
g
b
F^{rgb}_k
Fkrgb相乘,然后在第t个子分支上使用1
×
\times
× 1的卷积层作为过渡层,从不同的深度间隔来细化RGB特征。接着,我们使用点加操作从
T
+
1
T+1
T+1个子分支中聚合所有深度敏感特征,
F
k
e
n
h
=
∑
t
=
0
T
C
o
n
v
1
×
1
(
p
t
⨂
F
k
r
g
b
)
(
2
)
F^{enh}_k=\sum^T_{t=0}Conv_{1\times1}(p_t \bigotimes F^{rgb}_k) (2)
Fkenh=t=0∑TConv1×1(pt⨂Fkrgb)(2)
其中,
F
k
e
n
h
F^{enh}_k
Fkenh是增强后的RGB特征,
⨂
\bigotimes
⨂是点乘操作。最后,我们引入残差连接来得到最后输出特征,
r
k
=
F
k
e
n
h
+
F
k
r
g
b
(
3
)
r_k=F^{enh}_k+F^{rgb}_k (3)
rk=Fkenh+Fkrgb(3)
这样,DSAM不仅为RGB分支提供深度感知几何先验知识,而且消除了难以处理的背景干扰(例如杂乱的物体或类似的纹理)。此外,第4.4节中的消融实验也验证了我们的DASM的有效性。
3.3.自动多模态多尺度特征融合
我们提出了一种用于RGB-D SOD的自动多模态多尺度融合模块。首先,我们描述了所设计的四种类型的单元,即MM、MS、GA、SR单元,它们构成了整个特定于任务的搜索空间。然后,详细描述了融合模块的搜索空间,其中四种类型的单元在一个连续的流水线中协作。最后,我们描述了每个单元的内部结构。
单元类型。对于RGB-D SOD,我们设计了四种类型的单元,每个单元在NAS中是一个可搜索的单元。首先,利用MM单元直接进行RGB和深度分支的多模态特征融合。其次,利用MS细胞进行紧密多尺度特征融合。第三,我们利用GA单元无缝地聚合MS单元的输出以捕获全局上下文。最后,我们引入SR单元将低层和高层特征结合起来,以弥补下采样造成的空间细节损失。整个执行过程在建议的搜索空间详细如下。
搜索空间。通过可搜索的融合模块,我们将RGB特征{r1,r2,···,r5}与深度特征{d1,d2,···,d5}进行融合,如图2所示。具体来说,我们首先将两个分支的相邻特征作为MM单元的输入,得到多模态特征:
C
n
=
M
M
n
(
r
n
+
1
,
r
n
+
2
,
d
n
+
1
,
d
n
+
2
)
(
4
)
C_n=MM_n(r_{n+1},r_{n+2},d_{n+1},d_{n+2})(4)
Cn=MMn(rn+1,rn+2,dn+1,dn+2)(4)
其中
C
n
C_n
Cn是第n个CM单元的输出。
接下来,我们通过MS单元进一步进行金币特征融合。多尺度融合有两种,即用三个MS单元将每个多模态特征与不同尺度下的原始特征进行融合,用另一个MS单元将所有导出的多模态多尺度特征进行融合。该过程可以表示为:
D
m
=
{
M
S
m
(
r
4
,
C
1
,
d
4
)
,
m
=
1
,
M
S
m
(
r
5
,
C
2
,
d
5
)
,
m
=
2
,
M
S
m
(
r
3
,
C
3
,
d
3
)
,
m
=
3
,
M
S
m
(
C
1
,
C
2
,
C
3
)
,
m
=
4
,
(
5
)
D_m= \begin{cases} MS_m(r_4,C_1,d_4),m=1,\\ MS_m(r_5,C_2,d_5),m=2,\\ MS_m(r_3,C_3,d_3),m=3,\\ MS_m(C_1,C_2,C_3),m=4,\\ \end{cases} (5)
Dm=⎩⎪⎪⎪⎨⎪⎪⎪⎧MSm(r4,C1,d4),m=1,MSm(r5,C2,d5),m=2,MSm(r3,C3,d3),m=3,MSm(C1,C2,C3),m=4,(5)
其中m是MS单元的序号。
之后,引入一个GA单元,无缝集成上述四个MS单元的输出,进行全局上下文聚合,计算公式如下:
G
=
G
A
(
{
D
m
}
)
,
m
∈
{
1
,
2
,
3
,
4
}
(
6
)
G=GA(\{D_m\}),m \in \{1,2,3,4\}(6)
G=GA({Dm}),m∈{1,2,3,4}(6)
最后,为了补偿下采样造成的空间细节损失,我们使用两个连续的SR单元来融合高级特征和低级特征(即,
r
1
,
d
1
r_1,d_1
r1,d1或
r
2
,
d
2
r_2,d_2
r2,d2),如下所示:
L
1
=
S
R
1
(
σ
(
G
)
,
d
2
,
r
2
)
L
2
=
S
R
2
(
σ
(
L
1
)
,
d
1
,
r
1
)
(
7
)
L_1=SR_1(\sigma(G),d_2,r_2)\\L2=SR_2(\sigma(L_1),d_1,r_1)(7)
L1=SR1(σ(G),d2,r2)L2=SR2(σ(L1),d1,r1)(7)
其中,
σ
\sigma
σ指上采样操作。最后采用简单的解码器进行监控。解码器包含两个双线性上采样函数,每个上采样函数后面有三个卷积层。
细胞结构。每个上述每个单元都可以用一个统一的结构来表示,它是一个由节点的有序序列组成的有向无环图(DAG),用N={
x
(
1
)
x^{(1)}
x(1),…,
x
(
n
)
x^{(n)}
x(n)}表示。每个节点
x
(
i
)
x^{(i)}
x(i)是一个潜在表示(即特征图),每个有向边
(
i
,
j
)
(i,j)
(i,j)与一些候选操作
x
(
i
,
j
)
∈
O
x^{(i,j)} \in O
x(i,j)∈O(例如卷积、池化)相连,表示所有从
x
(
i
)
x^{(i)}
x(i)到
x
(
j
)
x^{(j)}
x(j)的可能变化。每个中间节点
x
(
j
)
x^{(j)}
x(j)由其所有的前驱计算得到:
x
(
j
)
=
∑
i
<
j
o
(
i
,
j
)
(
x
(
i
)
)
(
8
)
x^{(j)}=\sum_{i<j}o^{(i,j)}(x^{(i)})(8)
x(j)=i<j∑o(i,j)(x(i))(8)
为了使搜索空间连续,我们用softmax对所有可能的操作进行加工,放宽对特定操作的分类选择[37]:
o
~
(
i
,
j
)
(
x
)
=
∑
o
∈
O
S
o
f
t
m
a
x
(
α
o
(
i
,
j
)
o
(
x
)
)
(
9
)
\widetilde{o}^{(i,j)}(x)=\sum_{o \in O}Softmax(\alpha^{(i,j)}_oo(x))(9)
o
(i,j)(x)=o∈O∑Softmax(αo(i,j)o(x))(9)
其中,
o
(
⋅
)
o(·)
o(⋅)是操作集合
O
O
O中的一个操作,
α
o
(
i
,
j
)
\alpha^{(i,j)}_o
αo(i,j)是一个关于边
(
i
,
j
)
(i,j)
(i,j)操作方式的选择方面的可学习结构参数。因此,每个单元结构都被定义为
{
α
(
i
,
j
)
}
\{\alpha^{(i,j)}\}
{α(i,j)}。整个可搜索融合模块可以表示为
α
=
{
α
m
m
,
α
m
s
,
α
g
a
,
α
s
r
}
\alpha=\{\alpha_{mm},\alpha_{ms},\alpha_{ga},\alpha_{sr}\}
α={αmm,αms,αga,αsr}。相同类型的单元共享结构参数,但是拥有不同的权重。在搜索阶段之后,通过用最相似的操作(即
a
r
g
m
a
x
x
o
∈
O
α
o
(
i
,
j
)
argmaxx_{o \in O}\alpha ^{(i,j)}_o
argmaxxo∈Oαo(i,j))去替代混合操作
o
~
(
i
,
j
)
\widetilde{o}^{(i,j)}
o
(i,j),来决定最优操作。
讨论。让我们回顾一下RGB-D文献中的三个一致性原则,如第3.1节所述。我们的特定于任务的搜索空间足够一般,可以涵盖上述常见做法。具体来说,MM和MS单元的设计思想不仅满足了同一尺度下多模态特征融合的要求,而且满足了不同尺度下多模态特征融合的要求。然后,GA单元将底层空间信息引入到高层特征中。此外,我们在候选操作集中加入空间和通道注意操作,探索注意的搭配,详细分析见第4.4节。
3.4.优化
我们的框架的优化包括两个阶段。首先,我们搜索多模态融合模块。然后,对整个网络进行优化。
多模态融合模块搜索。在搜索过程中,我们拿出一半的原始训练数据作为验证集。我们使用双层优化[2,16]来联合优化架构参数和网络权重
w
w
w:
m
i
n
α
L
v
a
l
(
w
∗
(
α
)
,
α
)
s
.
t
.
w
∗
(
α
)
=
a
r
g
m
i
n
w
L
t
r
a
i
n
(
w
,
α
)
(
10
)
min_\alpha L_{val}(w^*(\alpha),\alpha)\\s.t. w^*(\alpha)=argmin_wL_{train}(w,\alpha)(10)
minαLval(w∗(α),α)s.t.w∗(α)=argminwLtrain(w,α)(10)
其中
L
v
a
l
L_{val}
Lval和
L
t
r
a
i
n
L_{train}
Ltrain指验证损失和训练损失(都是交叉熵损失)。然后通过等式10利用离散
α
\alpha
α得到聚变模块。
网络整体优化。利用得到的融合模块,利用标准交叉熵损失对整个网络进行显著性检测。
w
∗
=
m
i
n
w
L
t
r
a
i
n
(
w
,
α
)
(
11
)
w^*=min_wL_{train}(w,\alpha)(11)
w∗=minwLtrain(w,α)(11)
实验
在本节中,我们进行了大量的实验来验证我们的方法的有效性。首先,我们在七个标准基准上比较了我们的 D S A 2 F DSA^2F DSA2F与其他最先进的方法。其次,我们进行了一系列的消融研究来评估我们框架的每个组成部分。
4.1. 数据集和评估指标
数据集。我们在7个广泛使用的RGB-D数据集上进行了实验,以进行公平比较,包括DUTRGBD[47],NJUD[29],NLPR[45],SSD[65],STEREO[42],LFSD[33]和RGBD135[14]。为了保证公平比较,我们从DUTRGBD选取了800个样本,从NLPR选取了700个样本,从NJUD选取了1485个样本作为ATSA[59]来训练我们的模型。剩下的图像和其他数据集用于测试,以全面验证显著性模型的泛化能力。
评估指标。为了全面、公正地评价各种方法,我们采用了四种广泛使用的度量标准,包括平均F-测度( F β \mathcal{F}_\beta Fβ)[1]、平均绝对误差( M \mathcal{M} M)[5]、S-测度( S λ S_\lambda Sλ)[17]、E-测度( ε ξ \varepsilon_\xi εξ)[18]。具体而言,F-测度可以基于区域相似性来评价整体性能。 M \mathcal{M} M度量显著性图和地面真值之间每像素绝对差的平均值。最近提出的S-测度可以评价结构的相似性。该方法可以联合利用图像级统计和局部像素级统计来评价二值显著性图。
4.2.实现细节
我们的方法是用PyTorch实现的[44]。对于深度分支,我们使用DepthNet[59],与VGG-19相比,DepthNet是一个轻量级网络。对于深度敏感注意模块,深度分解区域的数目为3个。在搜索过程中,MM、MS、GA、SR小区的节点数分别为8、8、8、4。对于候选操作集O,我们收集了如下O:最大池、跳过连接、3×3 conv、1×1 conv、3×3可分离conv、3×3扩展conv(扩张=2)、3×3空间注意和1×1通道注意。对于训练超参数,批大小设置为8。Adam对结构参数进行了优化,初始学习速率3e-4,a=(0.5,0.999),权值衰减1e-3。采用SGD优化网络参数,初始学习率为0.025,动量为0.9,权值衰减为3e-4。搜索过程包含50个历元,在4个GTX 1080Ti GPU上大约需要20个小时。
搜索完成后,网络在gtx1080tigpu上训练,输入图像大小统一调整为256×256。网络的动量、权值衰减和学习速率分别为0.9、5e-4和1e-10。网络在60个时代后收敛,最小批量为2。为了减少过度拟合,我们通过随机翻转、裁剪和旋转训练图像来增加训练集。
4.3.与最新技术的比较
我们在7个广泛使用的基准上,将我们的 D S A 2 F DSA^2F DSA2F与18个其他最先进的方法进行了比较,为了公平比较,如果其他方法在论文中报告了最大F-测度,我们将根据它们提供的显著性图重新计算它们的平均F-测度。
定量比较。表1显示了七个数据集上四个评价指标的定量比较。表中的所有结果均由VGG-19[53]主干引用或测试,以进行公平比较。可以看出,在大多数度量中, D S A 2 F DSA^2F DSA2F在所有数据集上都显著优于竞争方法。特别是在LFSD和DUT-RGBD数据集上, D S A 2 F DSA^2F DSA2F的性能优于其他所有方法,这两种数据集由于具有大量复杂的场景,如相似的前景和背景、低对比度和透明对象而被认为是更具挑战性的数据集。此外,就总体性能指标(即 F β \mathcal{F}_\beta Fβ)而言, D S A 2 F DSA^2F DSA2F在七个数据集中始终优于所有其他最先进的方法。
定性比较。为了进一步说明我们的方法优越的性能,图4显示了所提出的方法和其他先进方法的一些可视化结果。从这些结果可以看出,我们的方法能够在各种具有挑战性的场景下准确地分割突出的物体,包括低对比度前景和背景(第1、2行)、杂乱的分散注意力的物体(第3、4、5行)、模糊深度(第8、9行)和精细结构(第10、11行)。这些结果进一步表明,该方法在利用深度先验知识的同时,可以明显地消除背景干扰。另外,我们的结果的边界(第6、7行)比其他结果更清晰、更清晰,从而保留了更多细节
4.4.消融实验
在这一节中,我们进行了一系列的消融研究,以进一步研究所提出的框架中每个组成部分的相对重要性和具体贡献。
深度敏感注意模块的有效性。为了验证所提出的深度敏感注意模块的有效性,我们进行了一系列使用不同策略的实验。1)基准。该网络包含用于RGB分支的VGG-19主干和用于深度分支的DepthNet,如图5(a)所示。2-4)网络由配备不同DSAM的VGG-19主干网和DepthNet组成。对于策略2-4,如图5(b)所示,我们尝试了DSAM的深度掩模和RGB特征的不同融合操作。策略2、3、4代表“分别是“元素相加(+),”串联“(c),”元素相乘“(*)运算。结果如表2所示,我们的DSAM可以大幅度提高基线,这证明了DSAM的有效性。从表2中,我们观察到“元素相乘”操作获得了最佳的整体性能,因为它直接充当了空间注意机制。此外,“串联”操作达到了次优的精度,我们怀疑深度线索在这里扮演了“位置编码”的角色。
深度区域数量的影响。深度分解的区域数是我们方法中的一个重要超参数,因此我们对不同的 T + 1 T+1 T+1值进行了实验。表4列出了不同的性能,DSAM在 T + 1 T+1 T+1为3时达到最佳精度。
任务特定搜索空间的有效性。在这一部分中,我们进行了相应的消融研究,以评估在我们的多模态搜索空间中每种类型的细胞的有效性。我们执行架构搜索过程,并在不同的搜索空间下重新训练整个网络。相应结果见表5。
注意在搜索空间中的有效性。为了证明注意操作的有效性,我们在有或没有空间和通道注意操作的情况下执行搜索过程。相应结果见表5。随着注意操作的注入,模型的性能有了很大的提高,说明注意机制在RGB-D-SOD中起重要作用。
搜索结构可视化。由于篇幅有限,本文在补充资料中对搜索到的融合模块进行了说明。一个有趣的观察结果是,在MM单元中,与RGB特征相关的操作数多于与深度特征相关的操作数。这一现象表明,考虑到RGB和深度数据的差异,不需要大量冗余操作或深度特征通道,这也验证了ATSA中RGB和深度分支的非对称双流结构的合理性[59]。
D S A 2 F DSA^2F DSA2F中每个组件的有效性。表3总结了如何通过在七个标准基准上逐步将每个组件添加到我们的 D S A 2 F DSA^2F DSA2F中来提高性能。下表显示,我们的 D S A 2 F DSA^2F DSA2F的每个组件都提供了显著的性能增益。
结论
本文提出了一种用于RGB-D显著性检测的双流结构 D S A 2 F DSA^2F DSA2F。在该框架中,我们引入了深度敏感注意模块(DSAM),利用深度几何信息有效地增强RGB特征,减少背景干扰。此外,我们还设计了一个针对多模态多尺度特征融合的任务搜索空间,并自动获得了一个功能强大的融合体系结构。大量的实验证明了该框架相对于现有方法的有效性,可视化结果也证明了该网络能够精确地捕捉具有挑战性的场景中的显著区域。
笔记
这篇文章中的亮点是深度分解那里,按照间隔将深度图分成了几个区域,用这种思路可以用于多目标的显著性检测。
问题:
- 如果利用深度信息
- 如何有效的跨模态融合
方法:
- 提出深度敏感注意力模块充分利用深度信息,提出自动多模态多尺度特征融合模块进行有效融合
- 深度敏感注意力模块分为两步。第一步深度分解,根据深度信号频率将深度图分解成若干个区域,并舍弃频率最小的背景区域。第二部深度敏感,将不同区域的深度图与RGB特征相乘,增强RGB信息。
- 自动多模态多尺度特征融合模块有四个单元,MM单元进行多模态融合,MS单元进行多尺度融合,GA单元用来捕获全局上下文,SR单元将低级特征与高级特征进行融合。自动体现在四个单元中的参数是可学习的。