图像分割与语义理解-CSDN博客

本文链接：https://blog.csdn.net/qq_45022743/article/details/124962786

图像分割

所谓图像分割指的是根据灰度，颜色，纹理和形状等特征把图像划分为若干互不交迭的区域，并使这些特征在同一区域内呈现出相似性，而在不同区域间呈现出明显的差异性。

语义分割（Semantic Segmentation）

语义分割的目标是从像素水平上理解，识别图片的内容，输入图片后，输出同尺寸的分割标记（像素水平），每个像素会被识别为同一个类别。主要用于机器人视觉和场景理解，自动驾驶，医学X光领域。
在这里插入图片描述

算法研究阶段

2015之前：手工特征+图模型（CRF）
2015之后：深度神经网络模型。改进CNN，并使用预训练CNN层参数。传统CNN的问题是后半段网络无空间信息，输出图片尺寸固定。全卷积网络所有层都是卷积层，可以解决将采样后的低分辨率问题。

全卷积网络（Fully Convolutional Networks-FCN）

全卷积是将所有全连接层转换成卷积层，适应任意尺寸输入，输出低分辨率分割图片
反卷积可以将低分辨率图片进行上采样，输出同分辨率分割图片

跳层架构可以精化分割图片
在这里插入图片描述
FCN卷积化
基础CNN网络：AlexNet，VGG16，GOOGLeNet，卷积后核尺寸：
FC6->(1x1,4096)
FC7->(1x1,4096)
FC8->(1x1,类别数)
分辨率降低32倍，5个卷积层，每层降2倍

卷积化降维问题

在这里插入图片描述

反卷积

反卷积的前向和后向传播对应于卷积操作的后向和前向传播，优化上做颠倒。反卷积和是卷积核的转置，学习率为0。反卷积也叫转置卷积，它可以拟合出双线性插值。
在这里插入图片描述

外围全补零反卷积，输入2X2,输出4X4，卷积核尺寸3X3,步长为1，padding为2。
在这里插入图片描述

FCN反卷积
，插零分数步长卷积，输入3X3,输出5X5,卷积核尺寸3X3,步长为2，padding为1。
在这里插入图片描述

上采样的三种实现

双线性插值 ：不需要进行学习，运行速度快，操作简单。
反卷积 ：为了还原原有特征图，类似消除原有卷积的某种效果，所以叫反卷积。
反池化 : 在池化过程中，记录下池化后的元素在对应kernel中的坐标，作为反池化的索引。

反池化

记录池化时的位置，形成池化索引，将输入特征按记录位置摆放回去
在这里插入图片描述

反卷积与反池化

反卷积与反池化之间最大的区别在于反卷积过程是有参数要进行学习的。理论上反卷积可以实现反池化，主要卷积核的参数设置的合理。
在这里插入图片描述

FCN-跳层结构

直接使用32倍反卷积得到的分割结果粗糙，使用前两个卷积层的输出做融合。
跳层：Pool4和Pool3后会增加一个1X1卷积层做预测，较浅的网络结构精细，较深的网络结果鲁棒。
在这里插入图片描述

FCN架构图例
在这里插入图片描述

构建FCN

在这里插入图片描述

使用AlexNet构建FCN
第一步：使用AlexNet作为初始网络，保留参数，舍弃全连接层。
在这里插入图片描述

第二步（FCN-32s网络）：
替换为两个同深度的卷积层（4096,1,1）->16x16x4096
追加一个预测卷积层（21,1,1）->16x16x21
追加一个步长为32的双线性插值反卷积层->500x500x21
在这里插入图片描述

第三步（FCN-16s网络）：
对最终层Conv7结果2倍上采样->34x34x21,提取Pool4输出，追加预测卷积层（21,1,1）->34x34x21,相加融合->34x34x21,追加一个步长为16的双线性插值反卷积层->500x500x21
在这里插入图片描述

第四步（FCN-8s网络）：
对上次融合结果2倍上采样->70x70x21,提取Pool3输出，追加预测卷积层（21,1,1）->70x70x21,相加融合->70x70x21,追加一个步长为8的双线性插值反卷积层->500x500x21
在这里插入图片描述

FCN训练

SGD with momentum(0.9)
学习率：learning rete：0.001（AlexNet）,0.0001(VGG16),0.00001(GoogLeNet)

Minibatch:20

初始化：卷积层：前5个卷积层使用初始CNN网络参数，剩余第6和第7卷积层初始化为0。反卷积层：最后一层反卷积层固定为双线性插值，不做学习，剩余反卷积层初始化为双线性插值，做学习。

FCN性能

在这里插入图片描述

DeepLab V1

基本结构： 优化后的CNN + 传统的CRF图模型
新的上采样卷积方案： 带孔（hole）结构的空洞卷积。
边界分割的优化： 使用全连接条件随机场进行迭代优化。
两个步骤： CNN输出粗糙的分割结果，全连接CRF精化分割结果

孔（Hole）算法

解决原始FCN网络的输出低分辨率问题；
降低池化层的降采样倍数: VGG16网络Pool4和Pool5层的步长：2->1;减小降采样倍数：32->8；后续卷积核的感受野会变小。
更改卷积核的结构->加孔（Hole）: 无上采样功能，恢复感受野，可以用来fine-tune,保证了网络最终的高分辨率输出（仅8倍降采样）

卷积核结构： 尺寸不变（3x3）,元素间距变大（1->2），步长不变（1）
优势： 参数数量不变，计算量不变，高分辨输出
采用层： Conv5：孔尺寸2；Conv6：孔尺寸4。
在这里插入图片描述

空洞卷积

是孔算法的正式名称，与降低池化层步长配合使用，以取代上采样反卷积，孔尺寸->Rate,Rate越大，感受野越大。
在这里插入图片描述

空洞卷积的参数：
在这里插入图片描述

空洞卷积的效果： 稀疏特征的提取：x2降采样->7x7卷积->x2上采样；稠密特征提取：7x7空洞卷积。
在这里插入图片描述

图像在CNN中逐层传递，是一个逐步抽象的过程，原来的位置信息会随着深度而减少甚至消失，CRF（条件随机场）的作用是，能在决定一个位置的像素值时，会考虑周围邻居的像素值（label）。short range的CRF可用于消除噪音，但是通过CNN得到的feature map在一定程度上已经足够平滑了，因此采用fully connected CRF,这样考虑的就是全局的信息了。