语义分割领域该如何学习？导论与学习规划

德彪稳坐倒骑驴

已于 2022-10-03 23:33:28 修改

阅读量1.1k

点赞数 2

文章标签：计算机视觉深度学习人工智能

于 2022-09-27 17:07:02 首次发布

本文链接：https://blog.csdn.net/Albert233333/article/details/127073129

版权

为什么学图像分割

重要性与是什么：计算机视觉有三大方向：图像识别Recognition，目标检测Detection，图片分割。

图像识别告诉你图像里面有什么，图里有个猫、还是有个狗、还是有辆车。其实就是图像分类

目标检测告诉你图像上的目标在哪里，用方框标记位置。

图片分割是像素级的

实例分割除了 person1 person2,还有就是不区分背景，也就是不把背景作为一个object进行涂色标注。注意下面这个，语义分割将背景割出来，涂上黄色；实例分割直接把背景忽略掉

图像分割≈语义分割+实例分割

Image Segmentation，Semantic Segmentation，Instance Segmentation

机会与挑战

（1）实现目标分割是下一步任务的前提

语义分割的目的是为下一步的工作，提供更优良的特征。是一种特殊的特征工程。

典型的技术路线（解决一个图像问题的思路）：目标分割 ——>目标检测——>目标识别。

目标识别就是图像识别，就是图像分类。目标检测是标记方框，说里面是什么。

（真的是这样倒着来的吗？先做分割，再做方框检测，再做图像分类？）

复杂场景中，要想达到准确识别，就要实现精确分割。分割是做好下一步任务的前提。

这就好比，理解用文言文写的一句话的意思，要首先断句，把一整个长的句子，按照语法规则拆成长短不一的句子块。句子你给断明白了，下一步，你逐个分析断开的每个句子成分的意思和关系，最终搞懂这句文言文的意思。

“理解文言文的意思”好比目标识别，“断句”就好比图像分割'。你先把这个图里面的object准确的、不多一倒卖、不少点的地割好，我再逐个分析割出来的这个东西的形状和图案纹理，最终判断这张图上有的是什么东西（尤其是识别起来特别困难的情景）。

（2）图像分割仍然存在较大提升空间，机会和挑战并存

复杂场景，图片分割的识别率还是不高，有很多时候会分割错误，提升空间较大。

2010年：传统分割是将图像中感兴趣区域ROI的边界找到，使得边界内部和外部的像素分别具备相似的特征，比如强度和纹理。实际上这是基于边缘检测的图像分割。注意：你只是割开了，但是你不知道割开的每个部分代表的实际含义，做不到语义分割。

2010年—2015年：用ML的方法进行语义分割，比如随机森林和SVM

2015年以后：随着FCN的出现，深度学习正式进入语义分割领域。不仅能把object的不规则边缘标出来，还能告诉你每一个object的对应什么东西。

进一步提升分割精度，尤其是物体object边缘分割精度
进一步提升分割效率（速度）。只有实现了更快的分割才能有更快的检测和识别。
更好的应对复杂场景，保证在复杂场景依旧可以有较高的分割精度。现实场景往往很复杂。
着重发展小样本物体分割：小样本物体总是被现有数据集忽略（极其罕见的、不常见的物体，training set里面没有这个类别的东西，于是就割不出来了，这个分割任务不不就相当于没完成好吗？）
标注ground truth的分割的成本极高，耗时耗力耗眼睛。怎么能非手工的获取到ground truth的不规则边缘分割呢？

经典的分类模型（用ANN CNN进行分类，已经AlexNet VGG等CNN-based method要学会）是进行分割算法的基础

论文部分

泛读：标题——>abstract——>conclusion——>通过读dataset描述了解这篇文章具体是做什么任务的、解决什么问题的——>全文的所有图表看了——>论文小标题都看了，了解模型由几部分组成——>着重读模型部分，了解（1）操作流程（2）组件有哪些，起什么作用（3）用的trick（4）实验参数设置
做笔记，写博客介绍这篇文章。力图让两年后对这个模型一无所知的自己，二三十分钟看完这篇文章以后，可以知道（1）解决什么问题（2）模型的创新之处是什么（3）为什么这样创体就能performance好？给个直觉性的解释

代码部分