ACNET: ATTENTION BASED NETWORK TO EXPLOIT COMPLEMENTARY FEATURES FOR RGBD SEMANTIC SEGMENTATION
ACNET:基于注意力的网络,利用RGBD语义分割的互补特征
arXiv:1905.10089v1 [cs.CV] 24 May 2019
文章地址:https://arxiv.org/abs/1905.10089
代码地址:https://github.com/anheidelonghu/ACNet
摘要
与RGB语义分割相比,RGBD语义分割通过考虑深度信息可以获得更好的性能。然而,由于RGB和深度(D)图像的特征分布在不同场景中显著不同,当代分割器有效地利用RGBD信息仍然存在问题。在本文中,我们提出了一种注意力互补网络(ACNet),它选择性地从RGB和深度分支中收集特征。主要贡献在于注意力补充模块(ACM)和具有三个并行分支的体系结构。更准确地说,ACM是一个基于通道注意力的模块,它从RGB和深度分支中提取加权特征。该架构保留了原始RGB和深度分支的推断,同时启用了融合分支。基于上述结构,ACNet能够从不同的频道中挖掘更多高质量的特性。我们在SUN-RGBD和NYUDv2数据集上评估了我们的模型,并证明我们的模型优于最先进的方法。特别是,ResNet50在NYUDv2测试集上获得了48.3%的mIoU分数。我们将在https://github.com/anheidelonghu/ACNet.
索引项–注意、互补、RGBD语义分割
1导言
语义分割是计算机视觉的一项基本任务,其目的是将图像分割成几个连贯的语义有意义的部分。与需要以复杂的单独方式部署的传统方法相比,语义分割可以用于统一导航系统所需的各种检测任务,至少在标准室外条件下[1][2]。
相比之下,尚未彻底研究的室内语义分割在几个方面仍然具有挑战性。例如,它遭受不均匀的照明和混乱的空间重叠。随着RGBD相机(如RealSense、Kinect、Xion等)的出现和发展,室内语义分割可以从RGBD观测中受益,RGBD观察对真实世界的几何信息进行编码,这在理论上导致比RGB语义分割更好的分割性能。为此,有一些尝试,如[3][4],将深度图像视为附加通道,并使用类似于RGB语义分割的方法来实现RGBD语义分割。在[5]中,为RGB输入和深度输入设计了两个神经网络分支,在上采样之前将其合并。在[3]中,深度图像被分解为三个通道,即视差、高度和角度,它们也被视为RGB图像。在[6]中,代替简单地使用传统的卷积神经网络,新的基于图的网络被用于更充分地挖掘场景几何信息。在[7]中,根据深度值修改了传统卷积。这些为RGBD语义分割设计的网络已经取得了突破性的成果。然而,仍有一些问题需要解决:
-
尽管编码在深度图像中的几何信息可以清楚地为图像分割提供额外的好处,但RGB图像和深度图像中包含的信息对于每个场景来说并不等价(如图1所示)。换句话说,当前网络从RGB分支和深度分支提取的特征可能不合适。
-
传统RGBD分割网络可分为两种架构。其中之一,如[8],使用两个编码器分别从RGB和深度图像中提取特征,并在上采样之前或期间组合两者的特征。另一个类似[5][9]的方法只是在下采样阶段融合RGBD特征。前者不能充分组合RGBD信息,后者往往会丢失原始RGB和深度分支,因为融合分支取代了它们。
在本文中,我们建议ACNet(如图2所示)按输入确定的比例组合RGB和深度特征。在ACNet中,有两个独立的分支基于ResNet[10],分别提取RGB和深度图像的特征。几个注意力补充模块(ACM)被设计为从上述分支中获得特征,这些特征由它们所携带的信息量决定。还有一个基于ResNet的分支来处理合并的特征。所提出的架构能够保持原始RGBD特征流,并在集成网络中利用合并的特征。
2 框架
注意补充模块(ACM)。如图1所示,RGB图像和深度图像中包含的信息在室内场景的不同区域中不同。为了有选择地从RGB分支和深度分支中收集特征,我们设计了一组关注模块[11],以使网络关注更多信息区域。更准确地说,所提出的ACM基于信道关注[12](如图3所示)。假设输入特征图
A
=
[
A
1
,
⋅
⋅
⋅
,
A
C
]
∈
R
C
×
H
×
W
A=[A_1,···,A_C]∈ R^{C×H×W}
A=[A1,⋅⋅⋅,AC]∈RC×H×W,我们首先应用全局平均池,以获得输出
Z
∈
R
C
×
1
×
1
Z∈ R^{C×1×1}
Z∈RC×1×1,其中
C
C
C表示通道的数量,
H
、
W
H、W
H、W分别表示特征图的高度和宽度。第
k
(
k
∈
[
1
,
C
]
)
k(k∈ [1,C])
k(k∈[1,C])可以表示为:
Z
K
=
1
H
×
W
∑
i
H
∑
j
W
A
k
(
i
,
j
)
(1)
Z_K={1\over{H×W}}\sum^H_i\sum^W_j A_k(i,j) \tag{1}
ZK=H×W1i∑Hj∑WAk(i,j)(1)
然后,
Z
Z
Z被1×1卷积层重组,该卷积层具有与
Z
Z
Z相同的信道数。
1
×
1
1×1
1×1卷积层能够挖掘信道之间的相关性,从而得出这些信道的适当权重分布。应用
S
S
S形函数来激活卷积结果,约束权重向量的值
V
∈
R
C
×
1
×
1
V∈ R^{C×1×1}
V∈RC×1×1介于0和1之间。最后,我们对
A
A
A和
V
V
V执行外积,结果
U
∈
R
C
×
H
×
W
U∈ R^{C×H×W}
U∈RC×H×W可表示为:
U
=
A
⊗
σ
[
φ
(
Z
)
]
(2)
U=A\otimes σ[φ(Z)]\tag{2}
U=A⊗σ[φ(Z)](2)
其中⊗表示外积,
σ
σ
σ表示
s
i
g
m
o
i
d
sigmoid
sigmoid函数,
φ
φ
φ表示
1
×
1
1×1
1×1卷积。通过这种方式,特征图U被转换为新的特征图
U
U
U,其中包含更多的有效信息。
特征融合的结构。大多数先进的RGBD语义分割网络使用的是一种过早或过晚融合RGBD特征的编码器[5][8],这破坏了原始的RGB和深度信息,或者导致利用所带信息的效率低下。为了在下采样过程中保持原始RGB和深度特征的流动,我们提出了一个专门的RGBD特征融合架构。如图2所示,两个完整的ResNets被部署来分别提取RGB和深度特征。请注意,这里的ResNet可以用其他网络代替,例如,在效率关键领域的ERF-PSPNet[2]。重要的是,这两个分支可以在上采样前保留RGB和深度特征。之后,融合分支被利用来从合并的特征图中提取特征。
注意力互补网络(ACNet)。我们为RGBD语义分割设计了一个名为ACNet的综合网络。ACNet的主干部分如图2所示。RGB图像和深度图像被输入,并由ResNet分支分别处理。在推理过程中,上述各分支在每个模块阶段提供一组特征图,如Conv、Layer1等。然后,这些特征图被ACM重新组织。在通过Conv后,这些特征图被进一步按元素顺序添加到融合分支的输入中,而其他特征图则被添加到融合分支的输出中。这样,低级和高级特征都可以被我们的ACNet提取、重组和融合。对于上采样,我们采用了像[5]那样的跳过连接,它将下层的特征附加到上层的特征中。
3 试验
我们在两个公共数据集上评估我们的方法。
NYUDv2[13]。NYU-Depth V2数据集(NYUDv2)包含1,449张带有密集像素注释的RGBD图像。我们根据官方设置将该数据集分为795张训练图像和654张测试图像。我们使用带有40类注释的版本(文献中常用的版本)。
SUN-RGBD[14]。我们使用SUN-RGBD V1,它有37个类别,包含10,335张带有密集像素注释的RGBD图像,5,285张用于训练,5,050张用于测试。
至于衡量标准,我们使用所有类别的平均交叉点(mIoU)来评估不同语义分割器的性能。
实施细节。至于数据增强,我们对RGB和深度图像进行随机缩放、裁剪和翻转,并分别对其进行标准化处理。对于RGB图像,我们也随机地改变它们在HSV空间中的颜色。在所有的实验中,我们使用ResNet50作为编码器,它是在ImageNet[15]上预先训练的。由于深度图像包含一个通道,我们将ResNet50第一层中的三个通道平均到深度分支的一个通道上。我们使用焦点损失[16],焦点参数γ=2来监督我们网络的训练。在训练阶段,我们还计算了图2中up1到up5输出的平均损失以更好地优化我们的网络。在测试阶段,我们只评估最后一次输出的指标,以确保与技术水平的一致性。我们使用SGD优化器,初始学习率为0.002,动量为0.9,重量衰减为0.004。在一个NVIDIA TITAN Xp上训练时,批量大小被设置为4。在SUN-RGBD上每迭代20次,学习率就乘以0.8,在NYUDv2上每迭代100次。
对ACM的分析。为了更好地理解ACM,我们将第2层的特征图可视化(如图4所示),因为第2层的低级特征与视觉直觉更加一致。请注意,为了更好地说明问题,我们只将128个特征图中的前16个可视化。关于从(0,0)开始的权重矩阵,它们与特征图逐一对应,在这里我们可以发现一些有洞察力的结果。在(0,0)处,RGB分支的特征图比深度分支的特征图包含更多的有效信息,所以ACM倾向于给RGB分支更多的权重。相反,在(2,2)处,深度分支的特征图包含更多的信息,因此,深度分支获得更高的权重。最后,这两个分支的特征图被逐一加入到融合分支的特征图中,以补充RGBD信息。
我们还评估了ACM在各个层面上产生的权重(如图5所示)。首先,我们关注权重的平均值,它表明在输入到ACM之前,特征图中所包含的信息量。在Conv和Layer1中,RGB分支的平均权重高于深度分支的平均权重。这表明,由于RGB图像通常包含许多冗余的纹理,因此RGB分支在较低层次上总是包含更多的有效信息。此外,Layer2、Layer3和Layer4中的两个分支的权重也很接近,这意味着RGB和D分支在较高层次上包含的有效信息几乎相等。此外,第4层的平均权重相当低,说明融合分支可能收集了足够的特征。指标:std(标准差)、min和max可以反映信息在各通道的分布。从Conv到Layer3,std变得越来越小,这说明ACNet可以均匀化信息的分布。然而,Layer4应该决定选择有用的特征,同时消除多余的特征,因为它是编码器的最后一个模块。因此,第4层的std是相当高的。这个实验表明,我们的网络使信息在各通道上的分布趋于平缓,互补的特征被有效利用,这对RGBD语义分割至关重要。
消融研究。为了验证ACM和多分支结构的功能,我们通过比较原始模型和两个有缺陷的模型进行了消减研究。模型-1和模型-2。在模型-1中,我们删除了所有的ACM以及Conv Layer后的RGB和D分支。在Model-2中,我们删除了所有的ACM,但保留了多分支结构。我们对NYUDv2的消融研究表明,Model-1和Model-2的mIoU分别为44.3%和46.8%,验证了多分支结构和ACM分别导致了2.5%和1.5%的显著精度提升。
与最先进的网络进行比较。我们将我们的ACNet与最先进的方法相比较,以证明其有效性。注意,我们采用了最普遍使用的mIoU作为评价指标。
Model | NYUDv2 | SUN-RGBD |
---|---|---|
3DGNN [6] | 39.9% | 44.1% |
RefineNet (ResNet152) [17] | 46.5% | 45.9% |
Depth-aware CNN [7] | 43.9% | 42.0% |
LSD [8] | 45.9% | - |
CFN (VGG-16) [18] | 41.7% | 42.5% |
CFN (RefineNet-152) [18] | 47.7% | 48.1% |
ACNet (ResNet-50) | 48.3% | 48.1% |
表1显示了我们的ACNet在NYUDv2和SUN-RGBD测试集的结果。结果显示,在NYUDv2上,我们的ACNet比其他最先进的模型高出0.6%,在NYUDv2上获得了48.3%的mIoU准确性的新记录。在SUN-RGBD上,我们的模型(ResNet-50)通过使用一个更轻量级的骨干,能够达到与CFN(RefineNet-152)[18]相同的mIoU。
4. 结论
在本文中,我们提出了一种新型的基于多分支注意力的网络,用于RGBD语义分割。多分支结构能够有效地收集特征,并且不破坏原始RGB和深度分支的推理。注意力模块可以根据RGB和深度分支所包含的信息量有选择地收集特征,并通过使用这些加权特征对融合分支进行补充。我们的模型可以解决RGB图像和深度图像总是包含不相等的信息量以及不同的背景分布的问题。我们在NYUDv2和SUN-RGBD数据集上评估了我们的模型,实验表明我们的模型可以超越最先进的方法。
在未来,我们将探索如何提高像素化图像分割的实时性能,不仅适用于RGBD语义认知,也适用于全景环形周边感知。
5. REFERENCES
[1] Kailun Y ang, Luis M Bergasa, Eduardo Romera, Ruiqi Cheng, Tianxue Chen, and Kaiwei Wang, “Unifying terrain awareness through real-time semantic segmentation,” in 2018 IEEE Intelligent V ehicles Symposium (IV). IEEE, 2018, pp. 1033–1038.
[2] Kailun Y ang, Xinxin Hu, Luis M Bergasa, Eduardo Romera, Xiao Huang, Dongming Sun, and Kaiwei Wang, “Can we pass beyond the field of view?panoramic annular semantic segmentation for realworld surrounding perception,” in 2019 IEEE Intelligent V ehicles Symposium (IV). IEEE, 2019, pp. 1–8.
[3] Saurabh Gupta, Ross Girshick, Pablo Arbeláez, and Jitendra Malik, “Learning rich features from rgb-d images for object detection and segmentation,” in European Conference on Computer Vision. Springer, 2014,pp. 345–360.
[4] Y ang He, Wei-Chen Chiu, Margret Keuper, Mario Fritz,and Saarland Informatics Campus, “Std2p: Rgbd semantic segmentation using spatio-temporal data-driven pooling.,” in CVPR, 2017, pp. 7158–7167.
[5] Jindong Jiang, Lunan Zheng, Fei Luo, and Zhijun Zhang, “Rednet: Residual encoder-decoder network for indoor rgb-d semantic segmentation,” arXiv preprint arXiv:1806.01054, 2018.
[6] Xiaojuan Qi, Renjie Liao, Jiaya Jia, Sanja Fidler, and Raquel Urtasun, “3d graph neural networks for rgbd semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5199–5208.
[7] Weiyue Wang and Ulrich Neumann, “Depth-aware cnn for rgb-d segmentation,” arXiv preprint arXiv:1803.06791, 2018.
[8] Y anhua Cheng, Rui Cai, Zhiwei Li, Xin Zhao, and Kaiqi Huang, “Localitysensitive deconvolution networks with gated fusion for rgb-d indoor semantic segmentation,”in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, vol. 3.
[9] Hao Chen and Y oufu Li, “Progressively complementarity-aware fusion network for rgb-d salient object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 3051–3060.
[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[11] Jie Hu, Li Shen, and Gang Sun, “Squeeze-and-excitation networks,” arXiv preprint arXiv:1709.01507,vol. 7, 2017.
[12] Y ulun Zhang, Kunpeng Li, Kai Li, Lichen Wang, Bineng Zhong, and Y un Fu, “Image super-resolution using very deep residual channel attention networks,” in Proceedings of the European Conference on Computer Vision, Munich, Germany, 2018, pp. 8–14.
[13] Nathan Silberman, Derek Hoiem, Pushmeet Kohli, and Rob Fergus, “Indoor segmentation and support inference from rgbd images,” in European Conference on Computer Vision. Springer, 2012, pp. 746–760.
[14] Shuran Song, Samuel P Lichtenberg, and Jianxiong Xiao, “Sun rgb-d: A rgb-d scene understanding benchmark suite,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 567–576.
[15] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause,Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al.,“Imagenet large scale visual recognition challenge,” International Journal of Computer Vision, vol. 115, no. 3,pp. 211–252, 2015.
[16] Tsung-Yi Lin, Priyal Goyal, Ross Girshick, Kaiming He, and Piotr Dollár, “Focal loss for dense object detection,” IEEE transactions on pattern analysis and machine intelligence, 2018.
[17] Guosheng Lin, Anton Milan, Chunhua Shen, and Ian Reid, “Refinenet: Multi-path refinement networks for high-resolution semantic segmentation,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017, pp. 5168–5177.
[18] Di Lin, Guangyong Chen, Daniel Cohen-Or, Pheng-Ann Heng, and Hui Huang, “Cascaded feature network for semantic segmentation of rgb-d images,” in Computer Vision (ICCV), 2017 IEEE International Conference on.IEEE, 2017, pp. 1320–1328.