语义分割学习总结（一）—— 基本概念篇

尼笛芽在努力

已于 2022-03-23 18:58:04 修改

阅读量3.9k

点赞数

文章标签：深度学习计算机视觉

于 2022-02-27 18:18:29 首次发布

本文链接：https://blog.csdn.net/aibeeeee/article/details/123162068

版权

“基础不牢，地动山摇”，学习某个领域的知识时，熟知基本概念一定是最最最重要的。会长期更新~~~

1、上采样

提高图像分辨率的技术。现在很多采用上采样的方式是为了将特征图的分辨率还原到原始图片的分辨率大小。上采样的几种实现方法：

（1）unpooling：最大池化的逆过程。记下做max pooling时候的最大item的位置，对应于最大值的地方填写最大值，其他位置补0。

（2）interpolation：比如最邻近元法、双线性插值，双三次插值算法等，如图是一个双线性插值的例子（图源来自网络）：

然后在 y 方向进行线性插值，得到：

$f(p)\approx \frac{y_{2}-y}{y_{2}-y_{1}}f(R_{1})+\frac{y-y_{1}}{y_{2}-y_{1}}f(R_{2})$

（3）deconvolution：将卷积矩阵转置之后，然后在这个基础上再做卷积。从矩阵角度理解转置卷积，我加了一些描述：（图源来自网络）

2、上下文信息

在实际的世界中，目标不可能单独的存在，它一定会于周围其他的对象会这是环境有或多或少的关系，这就是通常所说的上下文信息。图像中的每一个像素点不可能是孤立的，一个像素和周围像素是有一定的关系的，图像中的上下文信息也就是一个像素与其他像素之间的关系，或者其他像素对该像素影响。

3、语义信息

人类能定义的一些特征，对特征的一种抽象。可以通俗的理解成是图像的纹理，颜色，或者目标的类别等信息。也有人把图像的语义分为视觉层、对象层和概念层。视觉层即通常所理解的底层，即颜色、纹理和形状等等，这些特征都被称为底层特征语义；对象层即中间层，通常包含了属性特征等，就是某一对象在某一时刻的状态；概念层则是高层，是图像表达出的最接近人类理解的东西。做语义分割时，是分割出最高层的语义，举个例子，比如自动驾驶中标注周围驶过的汽车，汽车有许多零部件：后视镜、轮胎、车窗······等等，这些都属于中间层的语义，网络需要这些零部件全都标注成汽车。也就是分割出图像能在最大范围内表达出的内容。之所以是人为控制范围，比如人们给的标签和任务是分割汽车上的零件，那么后视镜、轮胎、车窗······等等都是图像中的语义了。

4、位置信息

像素在图像中的位置。位置信息对于分割任务很重要，因为语义分割需要类别标签和原图像对齐，因此需要引入像素的位置信息。

5、平移不变性

图像中的目标不管被移动到图片哪个位置，得到的结果应该相同。

6、平移同变性

系统在不同位置的工作原理相同，但它的响应随着目标位置的变化而变化。比如，实例分割任务，就需要平移同变性，目标如果被平移了，那么输出的实例掩码也应该相应地变化。FCIS文章中提到，一个像素在某一个实例中可能是前景，但是在相邻的一个实例中可能就是背景了，也就是说，同一个像素在不同的相对位置，具有不同的语义，对应着不同的响应，这说的也是平移同变性。

7、潜在空间

是一种压缩数据的表示。数据的潜在空间表示包含表示原始数据点所需的所有重要信息。图像的最重要特征都存储在潜在空间。关于“潜在空间”的描述，一些paper描述为“潜在特征空间”，所以这个潜在空间也就是平时我们常说的“特征空间”。

8、端到端

输入是数据，输出是预测结果，无需向传统机器学习那样进行一系列的特征提取。

9、CRF条件随机场（Conditional Random Fields）

（1）是什么：给定一组输入序列的条件下，另一组输出序列的条件概率分布。

（2）什么时候用：当输出序列的每一个位置的状态需要考虑到相邻位置的状态的时候。

（3）随机过程：随机变量的集合；由一个空间变量索引的随机过程称为随机场。

（4）马尔可夫随机场：如果一个位置的赋值只和与它相邻的位置的值有关，与和它不相邻的位置的值无关，那么这个随机场就是一个马尔可夫随机场。而CRF就是给定了一组观测状态下的马尔可夫随机场，也就是说CRF考虑到了观测状态这个先验条件。观测状态可以理解为备选的一些选项，用于做决定。

（5）原理：条件随机场满足吉布斯分布

$P(\textup{X}=\textup{x}|\textup{I}) = \frac{1}{Z(\textup{I})}\textup{exp}(-E(\textup{x}|\textup{I}))$ ，

其中能量函数

$E(\textup{x}|\textup{I})=\sum_{i}^{}{\psi}_{u}(x_{i})+\sum_{i<j}^{}{\psi}_{p}(x_{i},x_{j})$ 。

能量函数中的第一项是一元势函数，用于衡量当像素点i的像素值为yi时，该像素点属于类别标签xi的概率。这个一元势函数就可以直接由CNN输出，CNN训练完毕后就可以输出每个像素点属于每个类别的概率值。第二项是二元势函数，描述像素点与像素点之间的关系，鼓励相似的像素分配相同的标签，相差较大的像素分配不同的标签。二元势的由标签兼容项和特征函数组成：标签兼容项约束了像素间传导的条件，只有相同标签条件下能量才可以相互传导，此时标签兼容项值为0，否则为1，而特征函数度量不同像素之间的相似度。二元势函数中的位置信息和颜色信息由原始图像提供。当能量E(x)越小时，预测的类别标签就越准确，通过迭代最小化能量函数就可以得到最终的结果，实现CRF的隐变量X的推理。

10、超像素

超像素最直观的解释便是：把一些具有相似特性的像素“聚合”起来，形成一个更具有代表性的大“元素”。超像素是一系列像素的集合，这些像素具有类似的颜色、纹理等特征，距离也比较近。

———————————————————————————————————————————

参考：

https://blog.csdn.net/weixin_44350541/article/details/105171196

https://zhuanlan.zhihu.com/p/52407509

条件随机向量场CRF - 简书

如有疑问和错误欢迎私信~