DeepLabV1(semantic image segmentation with deep convolutional nets and fully connected CRFs)论文

Keep_Trying_Go

已于 2022-08-20 22:01:10 修改

阅读量1.1k

点赞数 1

分类专栏：论文讲解文章标签：深度学习人工智能计算机视觉

于 2022-08-20 21:59:55 首次发布

本文链接：https://blog.csdn.net/Keep_Trying_Go/article/details/126396366

版权

论文讲解专栏收录该内容

41 篇文章 0 订阅

订阅专栏

（1）基于空洞算法的高效密集滑动窗口特征提取

（2）使用卷积网络控制感受野大小和加速密集计算

6.详细的边界恢复：全连接条件，随机感受域和多尺度预测

（1）深度卷积神经网络和定位挑战

（2）精确定位的全连接CRF(connectional Random Fields)

1.论文地址

https://arxiv.org/abs/1412.7062

2.提出背景

将DCNNs应用于图像标记任务中存在两个问题：信号下采样和空间“不敏感性”（不变性）问题。

第一个问题是在标准的DCNNs每一层重复使用最大池化max-pooling和下采样，致使最终的单张图像的分辨率降低，图片分辨率的下降导致很多的细节信息丢失，那么对于图像分割是非常不利的；对于这个问题最初的时候是使用“arouse”算法（空洞卷积）计算非抽样离散小波变换，允许DCNNs响应的高效密集计算，比之前早期的解决方案都要简单的多。

第二个问题是从分类器所获得以目标为中心的决策需要对空间变换的不变性，固有地限制了DCNN模型的空间精度；空间不变性适用于图像分类（高度抽象，目标在图像中的位置不影响图像的分类），然后对于图像分割等低层任务很难达到好的效果。通过利用全连接条件随机领域提高了模型捕捉细节的能力。条件随机领域（Conditional Random Field-CRF）已经被广泛地应用在语义分割，联合类得分计算，通过多分类器与由像素和边缘局部交互捕获的低级信息相结合或者超像素。

3.达到效果

克服了深度网络定位差的属性，通过将最终DCNN层的响应与完全连接的条件随机结合。从质量上来说，我们的“deeplab”系统能够超过之前的方法定位分割的准确率。并且在PASCAL VOC 2012分割数据集上达到最好的性能，在测试集上IoU达到71.6%的准确率。

4.DeepLabV1的优点

（1）速度方面

由于使用了“atrous”算法，密集DCNN以每秒8fps帧运行，而全连接CRF的平均推断需要0.5s;

（2）准确性方面

在PASCAL VOC 语义分割挑战上获得最先进的模型结果；

（3）简洁性方面

系统由两个相当成熟的模块DCNNs和CRF级联而成的。

5.用于密集图像标签的卷积神经网络

在此，描述了文章是如何重新定位和微调公开可用的ImageNet数据集基于分类网络的预训练模型VGG16，VGG16的密集语义图像分割中成为一个高效和有效的密集特征提取器。

（1）基于空洞算法的高效密集滑动窗口特征提取

密集空间分数评估有利于密集CNN提取器的成功，作为实现这一个点的第一步，将VGG16的全连接层转换为卷积层，并在原始分辨率的图像上以卷积的方式运行网络。

通过引入零来增加其卷积核的大小，最后三个卷积层x2,第一个全连接层x4.这一点可以通过保持卷积核大小来更有效地实现，而不是通过稀疏的采样。

对ImageNet的预训练模型VGG16进行了权重微调，就是为了直接去适应图形分类任务。将VGG16的1000分类修改为了21分类，损失函数采用CNN输出图中每个空间位置的交叉熵项求和（对比原始图像进行8倍下采样）。所有的位置和标签在所有的损失函数中权重相等，文章的目标是真实的标签（通过8倍下采样），文章优化了所有网络层的权重的目标函数，通过标准的SGD。

在测试期间，需要原始图像分辨率下的类得分图，类得分图非常的平滑，这使得可以使用简单的双线性插值以在忽略计算成本将它们的分辨率提高8倍，不使用空洞算法和在CNN输出产生非常粗糙的得分。这迫使他们使用学习上采样层，大大增加了系统的复杂性和训练时间。在PASCAL VOC 2012上通过微调文章提到的网络训练大概7天时间（现代的GPU）。

（2）使用卷积网络控制感受野大小和加速密集计算

为密集分数计算重新设计网络另一个关键因素是明确控制网络的感受野大小。最近的大多数基于DCNN的图像识别方法依赖于ImageNet大规模分类任务上预先训练的网络。

依赖于ImageNet大规模分类任务的网络具有较大的感受野，而对于VGG16网络结构的感受野大小为224x224和404x404；但是将VGG16的网络转换为全卷积之后，之前的第一个全连接层具有4096个7x7大小的卷积核，这就造成计算的瓶颈，所以需要进行改进。

所以对其之前的第一层全连接层修改为进行二次下采样到4x4大小，从而解决计算瓶颈的问题，使得计算时间减少了2-3倍，但是这会使网络的感受野大小为128x128或308x308。

最后得到的效果：在测试期间，密集的原始特征以大约为8fps/s进行预测，训练期间的速度为3fps/s。同时在不降低性能的情况下，将全连接层的通道数从4096降低到1024.

6.详细的边界恢复：全连接条件，随机感受域和多尺度预测

（1）深度卷积神经网络和定位挑战

DCNN得分图可以可靠的预测图像中对象和粗略的定位，但是不太适合精确定位它们的轮廓。也就是说DCNN（深度卷积神经网络）对图像中的目标进行定位时是不精确的，由于具有其平移不变性和大的感受野（输入的图像的分辨率越大，那么对其图像中的目标进行定位时也具有挑战）。

最近的工作有两个方向来解决这个定位挑战。第一种方法是利用来自卷积网络中多个层的信息，以便更好地估计对象边界；第二种方法是利用超像素表示，本质上是将定位任务委托给低级分割方法。这也是非常成功的方法。

基于DCNNs的识别能力和全连接CRF的细粒度定位精度来寻求一种新的替代方法，展现了在解决定位挑战方面非常的成功，产生准确的语义分割结果和在现有的方法无法达到的细节水平上恢复对象边界方面非常的成功。

（2）精确定位的全连接CRF(connectional Random Fields)

传统上，条件随机域CRF已经用来平滑噪声分割图。经典的一些模型包含耦合相邻结点的能量术语，有利于将相同标签分配给空间上邻近的像素。定性的说，这些短程CRF的主要功能是清除建立在局部手工设计特征之上的弱分类器的虚假预测。

但对于CNN来说，short-range CRFs可能会起到反作用，因为我们的目标是恢复局部信息，而不是进一步平滑图像。

E（x）模型能量函数：

7.多尺度预测

探索一种多尺度预测方法来提高边界定位精度：

在输入图片与前四个max pooling后添加MLP（多层感知机，包括3*3*128以及1*1*128），得到预测结果。
这四个预测结果与最终模型输出拼接（concatenate）到一起，相当于多了128*5=640个channel。
效果不如dense CRF，但也有一定提高。最终模型是结合了Desne CRF与Multi-scale Prediction。

8.实验评估

（1）数据集（Dataset）

将模型DeepLab放在PASCAL VOC 2012分割基准上进行测试，包含20个前景类别和1个背景别.原始的数据集包含1464，1449和1456张图像分别进行训练，验证和测试。数据集由Hariharan提供额外的标签。产生了10582张训练图像，测量方式是21个类别的平均像素交并比（IoU）.