背景与动机
- 图像语义分割是一种通过给目标类别中的每个点分配标签来区分图像中不同种类的技术。
- DeepLabV3+是一种广泛使用的图像语义分割方法,但存在高计算复杂性和大内存消耗的问题,难以在计算能力有限的嵌入式平台上部署。
- DeepLabV3+在提取图像特征信息时,难以充分利用多尺度信息,可能导致详细信息丢失和分割精度受损。
主要贡献
- 对DeepLabv3网络进行改进,使其适合于适应现实场景的需求。原始特征提取网络参数量过大,模型采用轻量级的MobileNetV2作为骨干网络,并在此基础上进一步优化,解决空间细节丢失和特征提取不足的问题。
- 在DeepLabv3中,在ASPP模块之后添加极化自注意力机制(PSA-P, PSA-S),以增加特征图提取细节信息的能力,提高语义分割的精度性能。在MobileNetv2底层特征之后添加通道注意力机制(ECA-Net),以恢复更清晰的分割边界。
- 在ASPP模块中使用条带池化代替原有的全局平均池化来有效捕获长程依赖关系,并使用混合池化代替原有的全局平均池化来有效捕获不同位置之间的短距离和长程依赖关系,从而提高系统的效率和可靠性。
DeepLabv3+
主要特点:
- 多尺度特征融合:DeepLabv3+通过使用编码器-解码器结构和金字塔池化模块,有效地结合了不同尺度的特征,以捕获图像中的上下文信息。
- 空洞卷积(Atrous Convolution):使用空洞卷积来提高感受野,允许网络在不增加参数数量的情况下捕获更广泛的上下文。
- 注意力机制:在v3+版本中,引入了注意力机制来增强模型对图像中重要区域的聚焦能力,从而提高分割精度。
挑战:尽管DeepLabv3+在性能上取得了显著进步,但其计算复杂性和内存消耗较高,这限制了它在资源受限的设备上的应用。
改进:文章中提到的改进版本通过引入轻量级网络MobileNetV2作为主干,以及应用ECAnet和极化自注意力机制,旨在降低DeepLabv3+的计算负担,同时保持或提高分割精度。
方法
以DeepLabv3 plus模型为主体进行改进。在基于DeepLabv3 plus网络的图像语义分割中,本文采用轻量级的MobileNetV2作为骨干网。然后,利用ASPP提取多尺度信息,提高图像分割性能。
极化自注意力机制(Polarized Self-Attention Mechanism, PSA):在ASPP模块之后引入了PSA,以增强特征图在空间维度上的细节信息提取能力。
通道注意力机制(ECA-Net):ECA-Net被引入以增强MobileNetV2的低级特征,通过自适应大小的卷积核对输入图像的特征图进行加权,从而提取感兴趣的信息,并改善分割边界的清晰度。
条纹池化(Strip Pooling):替代了传统的全局平均池化,条纹池化具有矩形的池化窗口,能够从水平和垂直方向捕获全局信息,扩展了获取特征信息的范围,有助于保留更多的细节信息。
1.Strip pooling
传统池化操作通常使用正方形窗口,这可能限制了对不同方向上特征相关性的有效捕获。条纹池化通过使用矩形窗口来设计,以适应图像中不同方向的特征。
工作原理:
- 条纹池化的窗口是矩形的,可以沿着水平和垂直方向进行池化操作,从而在两个方向上捕获全局信息。
- 在进行水平和垂直池化时,对列或行的元素值进行加权平均,这有助于保留图像中的重要空间特征。
- 之后将对应位置进行相加,卷积之后继续激活,然后进行特征融合
2.Polarized self-attention mechanism
极化自注意力的两种形式:
- 并行形式(PSA-P):通道自注意力机制和空间自注意力机制并行工作,分别对特征图的通道和空间维度进行加权。
- 串联形式(PSA-S):通道自注意力机制和空间自注意力机制串联工作,先进行通道加权,然后将结果应用于空间维度。
工作原理:
- 通道注意力:通过1x1卷积和Softmax函数来计算每个通道的重要性权重,增强或减弱特定通道的特征响应。
- 空间注意力:通过全局池化和1x1卷积来计算空间位置的重要性,强调图像中的关键区域。
拓展阅读:
通道注意力(Channel Attention)
- 目的:通道注意力的目的是识别和强调特征图中最重要的通道(即特征维度),同时抑制不重要的通道。
- 工作原理:通常通过全局平均池化(Global Average Pooling, GAP)或全局最大池化(Global Max Pooling, GMP)来聚合每个通道的空间信息,然后通过一个或多个1x1的卷积核来生成每个通道的权重。
- 应用:通道注意力通常用于深度学习模型中的特征图,以突出显示对当前任务最有用的特征,从而提高模型的性能。
空间注意力(Spatial Attention)
- 目的:空间注意力旨在识别特征图中最重要的空间位置(即像素位置),并集中模型的焦点于这些位置。
- 工作原理:空间注意力通常通过计算特征图中每个位置的权重来实现,这些权重可以通过不同的方法获得,例如使用softmax函数对空间维度进行归一化,或者使用卷积操作来学习空间依赖性。
- 应用:空间注意力有助于模型关注图像中的特定区域,例如在图像分类或分割任务中,模型可能会更加关注图像中的对象而不是背景。
实验结果表明,PSA_S在性能上略优于PSA_P,特别是在提高模型的MloU(平均交并比)方面。
优势:
- 多尺度特征融合:PSA能够同时考虑通道和空间维度上的特征,有助于模型更好地理解图像的局部和全局上下文。
- 特征增强:通过加权重要的特征并抑制不重要的特征,PSA提高了模型对关键信息的敏感性。
- 灵活性:PSA可以根据不同任务的需求调整其结构和参数。
3.ECA attention mechanism
ECA(Efficient Channel Attention)注意力机制是一种轻量级的通道注意力模块,旨在通过自适应地强调重要的通道特征来增强卷积神经网络的性能。
工作流程:
- 全局池化:对输入特征图的每个通道进行全局平均池化,得到每个通道的全局空间特征。
- 特征重塑:将池化后的特征重塑为一维向量,为每个通道生成一个单一的数值。
- 1x1卷积:使用1x1卷积核对重塑后的特征向量进行卷积操作,生成每个通道的权重。
- 激活函数:可选地使用激活函数来引入非线性,增强模型的表达能力。
ECA注意力机制以其简单有效的特点,在深度学习模型中越来越受到欢迎,特别是在需要轻量化解决方案的移动和嵌入式视觉应用中。
Conclusion
- 改进的网络结构:文章提出了一种基于DeepLabV3+网络的改进图像语义分割方法,该方法使用轻量级MobileNetV2作为模型的主干网络,并通过引入ECAnet通道注意力机制和极化自注意力机制来增强特征提取和边界清晰度。
- 条纹池化的应用:通过在ASPP模块中使用条纹池化替代全局平均池化,改进的模型能够更有效地捕获图像中的长距离依赖性,同时保留更多的细节信息。
- 注意力机制的引入:极化自注意力机制的引入增强了模型对图像空间特征的利用,而ECA-Net的添加则改善了对MobileNetV2低级特征的获取,进一步提升了分割性能。
- 实验结果:在PASCAL VOC2012数据集上的实验结果表明,改进后的模型实现了69.29%的MloU和80.41%的mAP,证明了模型在预测更精细的语义分割结果方面的能力,并有效优化了模型复杂性和分割精度。
- 性能提升:改进的算法在提高关键类别的准确性方面取得了进展,并通过引入注意力模块,有效提高了图像中对象的分割精度,MloU指标提高了约2%。
- 未来工作:尽管改进的算法在性能上取得了显著提升,但作者指出,由于引入注意力机制,模型的复杂性和参数数量有所增加。未来的工作将考虑使用模型压缩方法来优化网络,以实现高精度和轻量化的平衡。