Semantic Segmentation Method of Road Scene Based on Deeplabv3+ and Attention Mechanism

Semantic Segmentation Method of Road Scene Based on
Deeplabv3+ and Attention Mechanism

对于该文献翻译

摘要:在自动驾驶研究中,了解路况是提高驾驶安全性的关键。语义分割方法可以根据像素水平将图像分为与语义类别相关的不同图像区域,以帮助车辆感知并获得周围的道路环境信息,从而提高行驶安全性。 Deeplabv3 +是当前流行的语义分割模型。在语义分割任务中,存在一些小的目标被遗漏而相似对象容易被误判的现象,导致分割边界粗糙,降低了语义准确性。本研究针对这一问题,基于Deeplabv3 +网络结构,并结合注意机制以增加分割区域的权重,提出了一种改进的Deeplabv3 +融合注意机制,用于道路场景语义分割方法。首先,在Deeplabv3 +编码端引入了一组并行的位置注意模块和通道注意模块,以捕获更多的空间上下文信息和高级语义信息。然后,在解码端,引入注意机制以恢复空间细节信息,并对数据进行归一化以加快模型的收敛速度。在CamVid数据集和Cityscapes数据集上比较并测试了采用不同注意力引入机制的模型分割的效果。实验结果表明,改进后的模型分割精度在两个数据集上分别提高了6.88%和2.58%,优于Deeplabv3 +。该方法不会显着增加网络计算量和复杂性,并且在速度和准确性之间具有良好的平衡。

关键词:自动驾驶现场了解;语义分割; Deeplabv3 +;注意机制

引言

自动驾驶技术要求车辆模拟驾驶员了解交通参与者的关系并响应行人,车辆,障碍物等复杂的交通环境。语义分割是自动驾驶研究中最常用的方法之一视觉感知任务,可以在像素级别上划分图像中的各个兴趣目标区域,根据语义类别标记图像中的不同对象,然后获得具有像素语义标注的图像。
近年来,基于深度学习的细分方法学习大大提高了分割的准确性和速度。 2015年,提出了一种全卷积网络(FCN)[3],该网络实现了一种端到端分割方法,该方法支持输入任意大小的图像。此后,将卷积神经网络应用于语义分割的方法已成为主流,并取得了良好的效果[4]。为了减少下采样和池化操作对模型分割效果造成的空间信息损失,参考文献[5]提出了一种编解码网络模型。使用解码器恢复图像特征的详细信息并执行特征提取。例如,参考文献[6]中提出的SegNet网络。和参考文献[7]中提出的U-Net网络,它们都使用编码器和解码器结构来捕获丰富的空间信息。 DeepLabv3 + [8]是在参考文献[6]中提出的。在DeepLabv3网络中添加了一个简单有效的解码模块[9],使它能够在浅层中捕获足够的空间信息,帮助模型恢复目标细节,并获得了良好的分割效果。
在计算机视觉任务中,通过模仿人类的注意力提出了注意力解决机制[10],该机制已经在许多任务中得到应用。例如,参考文献[11]在FCN中引入了注意力机制,并提出了双重注意力网络(DANet),可以在场景分割任务中实现理想的分割效果。另外,注意力机制可以作为操作者包含在一层或多层的后面,并识别图像中的重要特征。
目前流行的Deeplabv3 +语义分割模型通过编码器捕获高级语义信息,并通过解码器恢复空间细节信息,在分割复杂多样的城市道路场景图像方面具有相对较好的性能。但是,局部细节存在一些问题,例如粗略的边界分割,小物体被忽略以及形状相似的物体的错误判断。为了解决上述问题,本研究以Deeplabv3 +为基本网络结构,介绍了注意力机制,并提出了一种融合了注意力机制的道路场景图像语义分割方法。计算注意力权重,并通过注意力机制分配注意力权重,以指导特征学习。其中,位置注意模块可以捕获特征图中任意两个位置之间的空间相关性,从而可以相互改善任意两个相似的位置特征。此外,相似度会影响注意权重的分配,然后通过对所有位置特征进行加权和求和来确定特征图中特定位置的特征。通道注意模块可以捕获任意两个通道上特征的相关性,并通过加权和来改善每个通道特征的特性。然后,将两个注意模块的输出进行集成以增强特征图的特征表示。最后,将使用批处理规范化(BN)[9]操作对数据进行规范化,以实现精确的输出结果。

1网络架构

1.1 Deeplabv3 +网络联结

Deeplabv3 +是典型的语义分割网络框架,它是在Deeplabv1-3的基础上开发的。首先,Deeplabv1 [12]使用无穷卷积来阐明和控制深度卷积神经网络中特征响应的分辨率。它使用减少下采样操作并增加网络的接收场的方法来获得密集的特征图,但是其在多尺度分割方面的性能很差。为了弥补Deeplabv1的缺点,Deeplabv2 [13]使用具有多个采样率和有效场过滤器的Atrous空间金字塔池(ASPP)结构来分割多个尺度的目标。为了提高分割精度,Deeplabv3使用图像级功能来增强ASPP模块,该模块可捕获更长的距离信息并合并全局上下文信息。此外,它还引入了“批归一化”操作以方便培训。此外,Deeplabv3 +在Deeplabv3上添加了一个简单高效的解码器模块,以通过端到端训练来优化目标边界分割结果。与Deeplabv3相比,Deeplabv3 +的编码器和解码器结构可以通过无规则卷积来任意控制提取特征的分辨率,从而提高图像分割效果,并在速度和精度之间取得平衡。此外,DeepLabv3 +网络在许多数据集上都取得了理想的结果,例如PASCAL VOC2012,Cityscapes和其他公共数据集。网络结构如图1所示。

图一

编码器部分主要使用Xception和ASPP​​模块进行特征提取。 Xception是一个包含输入和输出的DCNN网络。为了增加网络的接收范围,ASPP模块首先3对特征图进行1×1卷积压缩,同时使用3×3原子卷积,扩展速率为6、12和18,实现学习的多尺度特征。利用全局平均池层捕获全局信息,不仅可以减少下采样操作,而且可以获得更多的上下文信息,从而可以捕获分割特征图的目标边界信息,最终实现多分割。尺度目标,提高分割效果。然后将ASPP模块输出的特征图进行整合,并通过1×1卷积运算对特征进行压缩。最后,将输出高级特征图。
在解码器部分,为了避免低级特征包含比输出编码特征更多的通道,对Xception模块输出的特征采用1×1卷积运算以减少低级特征通道的数量。对编码端输出的高级特征进行双线性插值上采样操作,经过1×1卷积运算后与低级特征进行积分,以增强对目标部分边界信息的恢复。然后,对其进行3×3卷积运算以恢复特征图的细节和空间信息。经过双线性插值升采样操作,将获得最终的分割图像。

1.2注意机制注意机制(AM)

可以理解为一种资源分配机制,可以根据关注对象的重要性重新分配资源。在计算机视觉中,注意力机制要分配的资源是指权重,权重是通过包含丰富语义信息的高级特征图和包含全局上下文信息的低级特征图获得的。本研究主要介绍了位置注意模块和通道注意模块,以更好地捕获通道和空间维度的上下文信息,从而提高模型的分割效果,在场景理解任务中非常重要。位置关注模块可以在局部特征上建立丰富的上下文关系,并将更多的上下文信息编码为局部特征,从而增强其表示能力。位置注意模块的工作流程如图2所示。在这里插入图片描述
如图2所示,局部特征矩阵M是通过骨干网络C H WR M∈获得的。首先,在对矩阵M进行卷积运算之后,分别生成两个新的特征矩阵X和Y,分别变换矩阵X和Y的维数,然后变换矩阵X和Y的维数。其中N = HW是像素数。最后,将矩阵X的转置矩阵T X和矩阵Y进行矩阵相乘,并且使用softmax层来计算空间注意图S,N NRR S。计算过程表示为

在这里插入图片描述

其中jis是第i个位置对第j个位置的影响因子。两个位置之间的特征表示越相似,相关性和效果也随之增加。 i X是矩阵X的第i个位置元素,C N = R X,j Y是矩阵Y的第j个位置元素,C N = R Y。同时,对矩阵C H WR M进行卷积运算以获得新的特征矩阵Z C H WR Z,并将维数转换为C N WRZ。然后,变换后的矩阵Z和矩阵S的转置矩阵T S进行矩阵相乘,并将结果维转换为C H WR。转换后的结果与比例参数α相乘,然后与矩阵M相加,得出最终矩阵P,P,α为初始值0,并逐渐学习分布权重的学习参数。最终输出表示为[11]

在这里插入图片描述

其中i Z是矩阵Z的第i个位置元素。从式中可以看出。 (2)每个位置的输出特征P除了其原始特征之外,还聚合所有位置的特征,因此即使没有学习新特征,网络也不会丢失原始特征信息。根据空间关注图S,位置关注模块可以选择性地聚合上下文信息,捕获全局信息,并使用语义特征之间的相似性来提高类内紧凑性和语义一致性。

1.2.2信道注意模块信道注意模块(CAM)

是卷积信道之间资源的重新分配。卷积网络每一层的每个卷积内核都对应一个特征通道。每个高级功能的通道图都可以视为特定于类的响应,并且不同的语义响应彼此相关。通过利用每个通道映射之间的相互依赖关系来学习每个通道特征图的相关性,并改进特定语义特征的表示。因此,通过引入频道关注模块,可以弄清频道模型之间的相互依存关系,并根据依存程度来调整相关性较小的特征图,从而获得更多有用的信息。频道关注模块的工作流程如图3所示。

在这里插入图片描述

待续…想看踢我

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值