语义分割概述

听微雨

已于 2023-09-16 15:01:22 修改

阅读量152

点赞数

分类专栏：深度学习文章标签：深度学习

于 2023-09-16 15:00:08 首次发布

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.什么是语义分割
语义分割实现了图像像素级的分类。它能够将一张图片或者视频（视频以帧来提取的话其实就是图片），按照类别的异同，将图像分为多块，如下图所示：
在这里插入图片描述
那为什么要叫语义分割，而不是分割呢，语义这个词语如何理解？

一句话或一篇文章，都有其表达的意思，这叫做语义。我们看见一张图片时，图像表达出的意思就是图像的语义。语义分割就是将一张图片，表达成机器能够读懂的语言。那么我们就需要对图像进行操作，将不同类型的事物分割。比如上面的这张图片，被翻译成了包含car，house，people，road，groud，lamppost等几个类。

语义分割有较多的方法，大致可以分成两类，一类是传统的方法，一类是基于深度学习的方法。其中，基于深度学习的语义分割，目前已经具有较大的发展，并且能够使用在一些现实生活中的场合。

此外，还有两个与语义分割类似的说法，但是不是属于同一种概念。

实例分割：实例分割就是对同一类的不同对象也要进行分割，比如说，语义分割会将车分为一类，人分为另一类。但是，实例分割不同的是，它会将车继续进行分类，每一辆车都是一个实例类别。
全景分割：简单地来说，全景分割是实例分割与语义分割的结合。全景分割中的每一个像素点都会分成对应的语义标签和实例标签。如果一个类别里有多个实例，会用不同的颜色进行区别，我们可以知道哪个像素属于哪个类中的哪个实例。

下图中，子图a、b、c、d分别表示图像、语义分割、实例分割和全景分割。
在这里插入图片描述

2.语义分割常用知识

2.1 语义分割的常见问题

传统语义分割：传统的语义分割较多，主要有Normalized-cut、结构化随机森林和SVM等等。但是传统分割方法有着很大的缺点，一是分割效果不够好，还有一个是分割效率较低，分割一次耗时较长。这种分割效率，很难应用于实时驾驶系统等等。

深度学习语义分割：深度学习的方法，有两个问题。一个是不匹配关系，比如我们人很容易根据环境状况，分辨出模糊图像所属类别，但是深度学习不能很好地分辨出来。解决的这个问题论文有SPP、ASPP、PSPNet等等。另一个就是不寻常类，假若某个类别很少出现，并且物品和环境其他类别有着很相似的形状或者颜色，那么深度学习很难分辨出这个不寻常类别。解决这个问题的论文有Rednet和RDFnet等。

2.2 语义分割流程和常用数据集
语义分割有着三个流程，即训练、验证和测试。具体过程如下图所示：

训练：根据batch size大小，将数据集中的训练样本和标签读入卷积神经网络。根据实际需要，应先对训练图片及标签进行预处理，如裁剪，数据增强等。这有利于深度网络的训练，加速收敛过程，同时也避免过拟合问题并增强了模型的泛化能力。
验证：训练一个epoch结束后，将数据集中的验证样本和标签读入卷积神经网络中，并载入训练权重。根据编写好的语义分割指标进行验证，得到当前训练过程中的指标分数，保存对应权重。常用一次训练一次验证的方法更好的监督模型表现。
测试：所有训练结束后，将数据集中的测试样本和标签读入卷积神经网络，并将保存的最好权重值载入模型，进行测试。测试结果分为两种，一种是根据常用指标分数衡量网络性能，另一种是将网络的预测结果以图片的形式保存下来，直观感受分割的精确程度。

总结就是，通过训练，先进行图片的预处理，然后放入网络进行训练。然后利用训练结果，测试网络在验证集的表现，通过语义分割的指标来观察分割效果，进而保存对应权重w值。其实这一步也可以更加训练反馈，进行图像标注修正（当使用自己标注的原始数据集时）。最后，取出效果最好的权重进行测试。在其他图像任务或者其他深度学习任务也可以利用这三步进行操作。

语义分割的一些常见模型：
在这里插入图片描述

2.3 语义分割的常用指标

像素准确率（PA）:正确分类的像素数量与所有像素数量的比值。

像素准确率平均值（MPA）: PA的变体，每个类内正确分类的像素数量和该类的所有像素点数（Ground truth）的比值，之后求所有类的平均。

平均交并比（MIoU）: 检验语义分割效果最重要的指标。计算两个集合的交并比，两个集合分别是真实值（Ground truth）和预测值（predicted segmentation），是一个交集与并集的比值。平均交并比

原文：https://zhuanlan.zhihu.com/p/361243823

听微雨

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
语义分割概述

总结就是，通过训练，先进行图片的预处理，然后放入网络进行训练。比如上面的这张图片，被翻译成了包含car，house，people，road，groud，lamppost等几个类。测试结果分为两种，一种是根据常用指标分数衡量网络性能，另一种是将网络的预测结果以图片的形式保存下来，直观感受分割的精确程度。语义分割有较多的方法，大致可以分成两类，一类是传统的方法，一类是基于深度学习的方法。: PA的变体，每个类内正确分类的像素数量和该类的所有像素点数（Ground truth）的比值，之后求所有类的平均。
复制链接

扫一扫