论文泛读：深度卷积神经网络语义分割综述

哥们儿别卷辣

已于 2023-11-03 19:55:51 修改

阅读量191

点赞数 2

文章标签： cnn 人工智能神经网络

于 2023-11-03 11:43:51 首次发布

本文链接：https://blog.csdn.net/T548164/article/details/134195151

版权

深度卷积神经网络语义分割综述

声明：本文章只用于学习，若有侵权请联系删除。
引用论文：[1]马文琪,石颉,吴宏杰.深度卷积神经网络语义分割综述[J/OL].微电子学与计算机,2023(09):55-64[2023-11-03].https://doi.org/10.19304/J.ISSN1000-7180.2022.0825.

摘要

得益于深度卷积神经网络在特征提取和语义理解的强大能力,基于深度神经网络的语义分割技术逐渐成为计算机视觉研究的热点课题.。在无人驾驶、医学图像,甚至是虚拟交互、增强现实等领域都需要精确高效的语义分割技术。语义分割从图像像素级理解出发,为每个像素分配单独的类别标签。针对基于深度神经网络的语义分割技术,根据技术特性的差异,从 编码-解码架构、多尺度目标融合、卷积优化、注意力机制、传统-深度结合、策略融合方面展开,对现有模型的优缺点进行梳理和分析。

主要学习内容

深度卷积神经网络语义分割是指利用 DCNN 学习预先标注好的图像数据集,并利用学习到的语义特征进行像素级的分类。由于 DCNN 中最大池化和下采样操作使得图像尺寸随网络加深而减小,导致细粒度信息的丢失。为此研究者们针对以上问题提出了不同的解决方法。本文依据技术特性将其分为：编码-解码架构、多尺度目标融合、卷积优化、注意力机制、传统-深度结合、策略融合。各方法的优点与缺点如图1所示。

在这里插入图片描述

编码-解码架构

为了解决池化操作造成的特征细节丢失的问题,研究者们引入由编码器和解码器组成编码-解码架构。编码器利用多个卷积和池化操作,提取浅层的位置特征和深层的语义特征；解码器利用上采样操作恢复图像的细节和空间信息。

多尺度目标融合

深层语义特征预测效果好,但分辨率低、细节丢失严重；浅层语义特征分辨率高、细节丰富,但语义类别预测效果差。因此许多研究者利用不同层的信息差异性,融合多尺度信息补充分割细节。
最常见的多尺度目标融合方式是特征金字塔结构（Feature Pyramid Network,FPN）,通过多次采样使不同大小的目标在不同尺度有相应的特征表示,再融合不同尺度信息预测不同大小的目标。
另一种多尺度目标融合是多路分支结构,即在不同的支路中处理感受野各异的特征图,再互相融合补充出空间轮廓信息。