深度卷积神经网络语义分割综述
声明:本文章只用于学习,若有侵权请联系删除。
引用论文:[1]马文琪,石颉,吴宏杰.深度卷积神经网络语义分割综述[J/OL].微电子学与计算机,2023(09):55-64[2023-11-03].https://doi.org/10.19304/J.ISSN1000-7180.2022.0825.
摘要
得益于深度卷积神经网络在特征提取和语义理解的强大能力,基于深度神经网络的语义分割技术逐渐成为计算机视觉研究的热点课题.。在无人驾驶、医学图像,甚至是虚拟交互、增强现实等领域都需要精确高效的语义分割技术。 语义分割从图像像素级理解出发,为每个像素分配单独的类别标签。 针对基于深度神经网络的语义分割技术,根据技术特性的差异,从 编码-解码架构、多尺度目标融合、卷积优化、注意力机制、传统-深度结合、策略融合方面展开,对现有模型的优缺点进行梳理和分析。
主要学习内容
深度卷积神经网络语义分割是指利用 DCNN 学习预先标注好的图像数据集,并利用学习到的语义特征进行像素级的分类。由于 DCNN 中最大池化和下采样操作使得图像尺寸随网络加深而减小,导致细粒度信息的丢失。 为此研究者们针对以上问题提出了不同的解决方法。本文依据技术特性将其分为:编码-解码架构、多尺度目标融合、卷积优化、注意力机制、传统-深度结合、策略融合。各方法的优点与缺点如图1所示。
编码-解码架构
为了解决池化操作造成的特征细节丢失的问题,研究者们引入由编码器和解码器组成编码-解码架构。编码器利用多个卷积和池化操作,提取浅层的位置特征和深层的语义特征;解码器利用上采样操作恢复图像的细节和空间信息。
多尺度目标融合
深层语义特征预测效果好,但分辨率低、细节丢失严重;浅层语义特征分辨率高、细节丰富,但语义类别预测效果差。 因此许多研究者利用不同层的信息差异性,融合多尺度信息补充分割细节。
最常见的多尺度目标融合方式是特征金字塔结构(Feature Pyramid Network,FPN),通过多次采样使不同大小的目标在不同尺度有相应的特征表示,再融合不同尺度信息预测不同大小的目标。
另一种多尺度目标融合是多路分支结构,即在不同的支路中处理感受野各异的特征图,再互相融合补充出空间轮廓信息。
优化卷积操作
卷积操作利用像素值的加权平均代替,提取出抽象化、符号化的语义特征信息。 但由于卷积步长的存在,图像的特征信息会随着网络加深而丢失。 因此许多研究者通过优化卷积操作,提高语义分割的性能。
注意力机制
注意力机制能够增强分割的主体信息,抑制不相关信息,从而提高网络分割精度。如DeepLabv1针对全卷积语义分割网络感知区域小的问题,将多尺度注意力模块与多尺度结构进行联合训练,使得网络能够更好的学习多尺度特征在图像像素位置的软权重。
传统-深度结合
传统语义分割方法,计算简单、对均匀的联通目标有较好的分割结果,但对于多个物体需要多次运行。 DCNN 能够端到端训练模型主动提取图像各层级的特征,却缺乏上下文建模的长范围依赖关系。 将传统方法与 DCNN 网络结合也是语义分割的热门研究方向。
多策略融合
多策略融合则是将编码-解码架构、多层特征融合、优化卷积操作、注意力机制、传统-深度结合技术综合使用,能极大程度提高语义分割的性能。
总结
通过泛读该篇文章学习到了深度卷积神经网络的语义分割技术,并且了解到了深度学习中语义分割的发展。通过了解该领域中各位大佬对相关语义分割模型的改进与创新收获良多。由于论文中对语义分割模型的改进和创新操作太多,所以本篇博客便不深入展开了。