多尺度特征融合-针对道路坑洞检测而进行的更好的语义分割学习(翻译学习)

论文题目(MULTI-SCALE FEATURE FUSION: LEARNING BETTER SEMANTIC SEGMENTATION FOR ROAD POTHOLE DETECTION)

论文出处:2112.13082.pdf (arxiv.org)

摘要:

这篇论文呈现了一个新颖的,基于“单模语义分割”的目标检测方法。该方法首先通过一个卷积网络从输入的照片中提取视觉特征。然后通过一个通道注意力模块对通道特征重赋权以增强不同特征图的连续性。接着下来,我们利用一个“Atrous空间金字塔池化模块(相比于同系列的atrous卷积,有着更进一步提升的扩张率)”来整合空间上下文信息。这将有助于更好的区分空洞路面和完好路面区域。最终,邻接层中的特征图通过我们提出的“多层特征融合模块”达成融合。这使得不同特征通道层间的语义间隔进一步的减小。为了证明我们提出的方法的有效性,我们还在Pothole-600数据集上进行了扩展实验。定量的比较表明,我们的方法在RGB图片和转换后的具有差异的图片上都表现出了了最先进的性能,超越了最先进的单模语义分割网络。

索引条目 —— 坑洞检测,单模语义分割,卷积神经网络,特征融合

1. 简介:

坑洞是道路表面相当大的构造异常。它们是由当雨水渗透到路面下所引起的道路表面的收缩和扩展引起的。受雨水影响的道路表面区域由于轮胎引起的震动导致情况进一步恶化。这些道路表面使得道路无法通行。车辆的通行能够使得道路表面下的材料发生移动,这种移动导致了坑洞的扩张,使得坑洞的尺寸进一步恶化。为了避开交通意外,及时的道路坑洞检测成为了关键和急需要采取的措施。利用最近最先进的机器学习技术,构建自动道路坑洞检测系统称为现实。随着卷积神经网络(CNN)的进化,语义分割已经成为道路坑洞检测的一个有效的技巧,并使得这种检测可以获得一个还不错的结果。

在众多最先进的语义分割CNNs网络中,全卷积网络(FCN)用卷积层替换了传统分类网络中的全连接层,达到了更好的语义分割结果。“语义信息聚”合已经被证实是可以用来进行提升语义分割准确性的有力工具。ParseNet通过连接全局池化特征来捕获全局上下文。PSPNet引入一个空间特征池化(SPP)模型来收集在不同尺度上的上下文信息。Atrous SPP(ASPP)应用不同的扩张(空洞)卷积在没有引入额外参数的情况下来捕获多尺度上下文信息。

利用“全局虚拟信息”的优势,一些前沿方法已经提出对2-D特征图通道进行重赋权。SE-Net和ENCNet是被设计用来从全局上下文中学习一个全局共享注意力向量。SE-Net利用一个“挤压激励”操作来整合全局上下文信息到一个特征权重向量并且重赋权特征图。EcnNet利用一个上下文编码模块来获得一个全局共享特征权重向量。这个模块采用学习和残差编码组件来获得一个全局上下文编码特征向量,这个向量还可以被用来预测特征权重向量。结合全局上下文信息对每个通道的特征图进行重赋权已经被证实对提升语义分割的精确度是有效的。

一些其他方法利用CNNs骨架网络在不同的尺度上提取特征图。通过执行一系列的卷积和池化操作,神经网络的顶层包含了充分提取的语义信息,而低层的特征图包含了一些细节信息。这个不对称的信息结构成为了语义预测的一个屏障。为了解决这个问题,U-Net采用了一个编码-解码的结构来提升语义分割的性能。它在编码器与解码器之间增加了一个跨越连接,特征金字塔(FPN)使用U-Net的结构来从金字塔特征的每个层级中进行预测。然而,融合操作不能度量不同尺度上的特征图的相关度。不同尺度上的特征图之间的语义信息也可能会对彼此进行推导。

为了解决以上问题,在本论文中,基于注意力机制,我们提出一个新颖的多尺度特征融合模型(MSFFM)。我们的主要目标是通过借用额外的边界附近(是指那些难以进行分类推导的像素)的低层级语义信息来提升语义预测。我们利用了一个矩阵乘法操作来度量两个在空间上的特征图的相关度,这也是权重向量的基本思想。通过在神经网络的低层重赋权特征图,我们减少了在不同层上的不同特征图上的推导操作,不仅如此,我们还采用了一个通道注意力模块(CAM)来对不同通道上的特征图重赋权以进一步提升语义分割的结果。

2. 方法论

给定一张道路图片,坑洞可以有不同的形状和大小。通过一些列的卷积核池化操作,我们可以在神经网络的顶层获得特征图,虽然这些特征图有丰富的语义信息,但他们的解析度不足以高到能进行准确的语义预测。同样不幸的是,直接结合低层特征图只能带来非常有限的提升。为了克服这些短板,在本论文中我们设计了一个有效的特征融合模型。

我们提出的,道路坑洞检测网络的总体规划如图1所示:

首先我们采用一个预训练过的扩张ResNet-101作为CNN网络的骨架,来提取视觉特征。我们也将ResNet-101的最后两个blocks中的下采样操作替换为扩张卷积,使得最终的特征图的尺寸是原图尺寸的1/8.这个模块可以使得更多的细节在没有引入额外的参数的情况下得以保留。另外,我们采用了Deeplabv3中的ASPP模块来收集网络顶层的语义信息。然后,我们利用一个CAM来对不同通道的上的特征图进行重赋权。它可以强调一些特征,以产生更好的语义预测。最终,我们对不同层级上特征图提供给MSFFM,以提升空洞轮廓附近的分割性能。

2.1 多尺度特征融合

神经网络最顶层的t特征图具有高语义信息但其解析度较低,特别是在靠近坑洞边缘的地方。另外一方面,低层特征图具有低层级语义信息但较高的解析度。为了克服这个问题,一些工作直接在不同的层整合了特征图。然而,由于不同尺度特征图的语义间隙,他们的提升极其有限。

注意力模型已经广泛的应用在很多的任务中。受到一些成功的空间注意力机制应用的启发,我们引入了MSFFM,这是一个基于空间注意力机制从而能够有效地在不同尺度融合特征图的方法。语义间隙是特征融合的一个关键的挑战。为了解决这个问题,MSFFM通过矩阵乘法计算了在不同特征图上的像素关联度,并且这个关联度可以用作高层特征图的权重向量:

其中s_{ji}用来度量低层特征图中第i个位置与高层特征图中第j个位置的相关度。N表示像素的数量,PQ表示通过卷积生成的低层和高层特征图,相应的,\left \{ P,Q\right \}\in R^{C\times N}。两个位置的像素间具有越高的相似度,它们之间的相关性也越强,如图2所示。

为了降低生成特征图AB\left \{ A,B \right \}\in R^{C\times H \times W}的计算量,我们首先将特征图填入卷积来压缩通道。HW表示特征图的宽和高,然后我们分别改变低层特征图A和高层特征图B的大小至PQ,这里,N=H\times W表示像素量。之后,我们为矩阵相乘而转置Q矩阵,并用一个softmax层来计算空间注意力图S\in R^{N\times N}

然后我们执行Q和空间注意力图S间的矩阵乘法来生成特征图L\in R^{C\times H\times W}。最终,我们利用一个BL间逐像素相加操作来获得最终输出O\in R^{C\times H\times W}如下:

这里,\alpha被初始化为0,它将逐渐通过学习分配到更多的权重,q_i表示在低层特征图中的第i个通道位置,B_j表示顶层特征图中的第j个通道位置。根据公式(2)的推导,可以得到最终的特征O是一个跨越所有顶层特征图的加权和,这使得顶层特征图的语义信息得以很好的保留在最终的输出中。

最后,我们用矩阵乘法来度量不同层上的特征图像素间的相关性,这可以使得来自低层特征图的细节信息被整合进最终的输出中,以使得坑洞边界的语义分割性能得到提升。我们把这个模块用在了网络的最后两层间。

2.2. 逐通道特征重赋权

众所周知,高层特征图具有丰富的语义信息,并且每个通道图可看作是一个单独的分类响应输出。每个响应可以影响到最终的语义预测至一个不同的扩展。因此,我们用CAMs,如图3所示,并通过改变每个通道上的特征图的权重,来增强每个层上的特征图间的连续性。CAM是被设计用来对每个相应特征图上的所有像素进行重赋权的。我们首先用一个全局平均池化层来挤压空间信息。接着下来,我们用线性整流单元(ReLU)和sigmoid函数生成权重向量,这样就可以通过逐像素相乘的操作以使得输入特征图得以结合到最终生成的输出特征图中。当所有的信息被整合进权重向量,将会使得特征图更可靠并使得坑洞检测的结果更接近真实值。在我们的试验中,我们用在第4和第5层使用了CAM。

3. 试验结果

在这篇文章中,我们给出了一个在Pothole-600数据集上,关于我们的坑洞检测模型,在性能评估的定量和定性方面的详尽试验结果。这个数据集提供了两个模态的视觉传感器数据,1)RGB图片,和2)视差变换图片。视差变换图是通过对PT-SRP上的密度视差变换图片的变换估计而得到。我们通过试验来选择最佳的架构,所有试验相同的训练步骤。

消融实验:为了验证我们提出的MSFFM和CAM模型的有效性,我们首先给出在不同网络结构上的消融实验结果,如表1和2所示,这里,基线网络(骨架网络)使用的Deeplabv3,它可以将ASPP模块的特征图和低层特征图连接到一起。

更进一步地,我们在基线网络(骨架网路)实现了两个模块来分别验证他们的有效性。根据表1和表2的结果,实现的两个模块可以在RGB图片和视差变换图片上达到更好的性能。使用CAM和MSFFM后,mIOU在RGB图片上的的性能提升分别是1.85%和4.11%,而在视差变换图片上的提升分别是1.36%和0.12%。嵌入了MSFFM和CAM的网络在RGB图片上得到了76.16%的mFsc,在视差变换上得到了84.22%。根据这些试验结果,我们相信,CAM和MSFFM在我们的网络中可以大大提升分割的准确率。

性能比较:我们同样对比了我们的方法和三个先进的基于CNN的语义分割模型:1)Deeplabv3,2)PSPNet,3)DANet,在RGB图片和视差变换图片上的性能,如表3和4所示。由于PSPNet和Deeplabv3在不同尺度上收集上下文信息,因此它们在RGB图片和视差变换图片上有相近的结果。DANet基于注意力机制收集上下文信息,因此他的表现更佳。这进一步证明了注意力机制在道路坑洞语义分割中的优越性,这一点也可以从我们的模型与其他先进网络模型的对比中可以观察得到。

另外,在RGB图片方面,我们的模型相比于其他三个先进模型,1)Deeplabv3,2)PSPNet,3)DANet,分别高出了2.91%,2.9%,和2.09%。不仅如此,在视差变换图片上,分别获得了2.39%,2.9%,2.23%的提升。特别地,即使仅使用MSFFM,我们的方法也达到了最佳性能。

我们同样提出了一些关于我们提出的坑洞检测方法的定性结果,如图4所示,我们可以观察到,CNN在视差变换图片上可以得到更为结果。我们以上所获得的全面而详尽的试验评估结果可以证明我们的方法相较于其他先进方法的优越性。在CAM和MSFFM的“加持”下,我们的方法对在RGB图片和视差变换图变换片上的空洞检测达到了更好的性能。

4. 结论

这篇论文介绍了一个基于语义分割的方法,该方法利用一个新颖的,基于能够减少网络不同层上的特征图间的语义间隔的空间注意力机制的多尺度特征融合模块,来检测道路坑洞。这有助于在高层特征图上保留语义信息的同时,还能结合低层特征图上,坑洞边缘的丰富细节信息。顶层的特征图可以通过使用由不同层上的,结合了全局信息的特征图上的相关像素来生成的向量,从而进行重赋权。不仅如此,一个通道注意力模块被引入用来增强与语义分割真实值更相关的那些通道。更多在RGB图片和视差变换图片上的试验表明,我们的方法比其他先进的语义分割方法相比更有优势。

5. 参考文献

[1] Rui Fan et al., “Pothole detection based on disparity transformation and road surface modeling,” IEEE Transactions on Image Processing, vol. 29, pp. 897– 908, 2019.

[2] John S Miller et al., “Distress identification manual for the long-term pavement performance program,” Tech. Rep., 2003.

[3] Senthan Mathavan et al., “A review of three dimensional imaging technologies for pavement distress detection and measurements,” IEEE TITS, 2015.

[4] Rui Fan et al., “We learn better road pothole detection: from attention aggregation to adversarial domain adaptation,” in European Conference on Computer Vision. Springer, 2020, pp. 285–300.

[5] Rui Fan et al., “Rethinking road surface 3d reconstruction and pothole detection: From perspective transformation to disparity map segmentation,” IEEE Transactions on Cybernetics, 2021.

[6] Hengli Wang et al., “Applying surface normal information in drivable area and road anomaly detection for ground mobile robots,” IROS, 2020.

[7] Rui Fan et al., “Road crack detection using deep convolutional neural network and adaptive thresholding,” in 2019 IEEE Intelligent Vehicles Symposium. IEEE, 2019.

[8] Christian Koch and Ioannis Brilakis, “Pothole detection in asphalt pavement images,” Advanced Engineering Informatics, 2011.

[9] Rui Fan et al., “Sne-roads: Incorporating surface normal information into semantic segmentation for accurate free space detection,” in European Conference on Computer Vision. Springer, 2020, pp. 340–356.

[10] Jonathan Long et al., “Fully convolutional networks for semantic segmentation,” in CVPR, 2015.

[11] Wei Liu et al., “Parsenet: Looking wider to see better,” CoRR, 2015.

[12] Hengshuang Zhao et al., “Pyramid scene parsing network,” in CVPR, 2017, pp. 2881–2890.

[13] Liang-Chieh Chen et al., “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE TPAMI, 2017.

[14] Liang-Chieh Chen et al., “Rethinking atrous convolution for semantic image segmentation,” CoRR, 2017.

[15] Liang-Chieh Chen et al., “Encoder-decoder with atrous separable convolution for semantic image segmentation,” in ECCV, 2018, pp. 801–818.

[16] Jie Hu, Li Shen, and Gang Sun, “Squeeze-andexcitation networks,” in CVPR, 2018, pp. 7132–7141.

[17] Hang Zhang et al., “Context encoding for semantic segmentation,” in CVPR, 2018, pp. 7151–7160.

[18] Jun Fu et al., “Dual attention network for scene segmentation,” in CVPR, 2019.

[19] Liang-Chieh Chen et al., “Semantic image segmentation with deep convolutional nets and fully connected crfs,” CoRR, 2014.

[20] David Eigen and Rob Fergus, “Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture,” in CVPR, 2015.

[21] Fayao Liu et al., “Deep convolutional neural fields for depth estimation from a single image,” in CVPR, 2015, pp. 5162–5170.

[22] Fayao Liu et al., “Learning depth from single monocular images using deep convolutional neural fields,” IEEE TPAMI, 2015.

[23] Guosheng Lin et al., “Refinenet: Multi-path refinement networks for high-resolution semantic segmentation,” in CVPR, 2017, pp. 1925–1934.

[24] Olaf Ronneberger et al., “U-net: Convolutional networks for biomedical image segmentation,” in MICCAI. Springer, 2015.

[25] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, ´ Bharath Hariharan, and Serge Belongie, “Feature pyramid networks for object detection,” in CVPR, 2017.

[26] Kaiming He et al., “Deep residual learning for image recognition,” in CVPR, 2016, pp. 770–778.

[27] Vijay Badrinarayanan et al., “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE TPAMI, vol. 39, no. 12, pp. 2481–2495, 2017.

[28] Zhouhan Lin and et al., “A structured self-attentive sentence embedding,” CoRR, 2017.

[29] Ashish Vaswani et al., “Attention is all you need,” in NeurIPS, 2017.

[30] Tao Shen et al., “Disan: Directional self-attention network for rnn/cnn-free language understanding,” in AAAI, 2018, vol. 32.

[31] Rui Fan et al., “Real-time dense stereo embedded in a uav for road inspection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2019.

[32] Rui Fan and Ming Liu, “Road damage detection based on unsupervised disparity map segmentation,” IEEE Transactions on Intelligent Transportation Systems, 2019.

[33] Hengli Wang et al., “Dynamic fusion module evolves drivable area and road anomaly detection: A benchmark and algorithms,” IEEE Transactions on Cybernectics, 2021.

[34] Rui Fan et al., “Road surface 3d reconstruction based on dense subpixel disparity map estimation,” IEEE Transactions on Image Processing, vol. 27, no. 6, pp. 3025– 3035, 2018

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值