有关语义分割（Semantic Segmentation）

最新推荐文章于 2025-03-01 14:17:15 发布

JaceinSalt

最新推荐文章于 2025-03-01 14:17:15 发布

阅读量1k

点赞数 1

分类专栏：语义分割文章标签：图像语义分割

本文链接：https://blog.csdn.net/malvas/article/details/86543175

版权

语义分割专栏收录该内容

8 篇文章

订阅专栏

语义分割（semantic segmentation）按照“语义”给图像上目标类别中的每一点打一个标签，使得不同种类的物体在图像上被区分开来，即像素级别的分类任务。也就是说，该方法会将图像中每个像素分配到某个对应类别。输入图片维度H*W*3，输出维度为H*W*class，可以理解为图片上每个像素点的one-hot表示，对每个像素点位置，都有class数目的值，每个值对应像素属于该class的预测概率。

在深度学习时代，FCN（Fully Convolutional Networks）首次为语义分割引入了END-END的全卷积网络，在FCN基础上，DeepLab系列网络被提出，不断进行迭代改进，优化网络结构，其中DeepLabv3+网络的表现处于高水准。

该框架参考了 Spatial Pyramid Pooling Module 和 Encoder-Decoder 两种形式的分割框架。ASPP（Atrous Spatial Pyramid Pooling）方法的优点是该种结构可以提取比较 dense 的特征，因为参考了不同尺度的 feature，并且 Atrous Convolution 的使用加强了提取 dense 特征的能力。但是在该种方法中由于 pooling 和有 stride 的 conv 的存在，使得分割目标的边界信息丢失严重；Encoder-Decoder 方法中的decoder就可以起到修复尖锐物体边界的作用。流程如下：

输入图像首先进入编码过程，输入DCNN网络Xception的微调版本，进行Atrous Convolution。
将DCNN输出的部分低层特征进行1*1卷积。
进入ASPP（Atrous Spatial Pyramid Pooling）结构进行并行的4个Atrous Convolution，输出的4个特征图与全局平均池化得到的结果进行拼接，然后进行1*1卷积，再进行上采样。
将（2）和（3）的输出拼接，之后进行3*3的卷积，再上采样。
输出分割结果。