DeepLabv2-学习记录

羊村第一突破手懒羊羊

已于 2023-08-01 15:16:36 修改

阅读量45

点赞数

文章标签：学习

于 2023-08-01 15:15:00 首次发布

本文链接：https://blog.csdn.net/lzf767801/article/details/132037788

版权

引入：本次学习内容基本来自于Liang-Chieh Chen，George Papandreou编写的的《DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》，以及部分讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。
（一）摘要：DeepLabv2通过上采样滤波进行卷积，提出了空洞空间金字塔池化（ASPP）方法，在多个尺度上鲁棒地分割对象。并且通过将深度卷积神经网络（DCNNs）与概率图模型的方法相结合，改进了物体边界的定位。

（二）发表时间：2016

（三）关键词：图像分割，空洞卷积，ASSP

（四）学习记录：

作者提到，在图像分割时会普遍的遇到三个问题：（1）特征分辨率降低，（2）多尺度存在的对象，以及（3）由于DCNN不变性而降低的定位精度。

于是作者顺势提出了解决办法，并提出了DeepLabv2模型。

针对第一个问题，可以从DCNN的最后几个最大池化层中去除下采样操作，在后续的卷积层中上采样滤波器，从而得到更高采样率的特征图。滤波器的上采样相当于在非零滤波器系数之间插入孔洞（atrous）。

第二个问题，作者提出了一种在卷积之前以多个速率重新采样给定特征层的计算高效方案。这相当于使用具有互补有效视野的多个滤波器对原始图像进行探测，从而在多个尺度上捕捉对象以及有用的图像上下文。并不是重新采样特征，而是使用具有不同采样率的多个并行的atrous卷积层来实现这个映射。

第三个问题，使用全连接的CRF来提升模型捕捉细节的能力。其流程示意图如下所示。可以很明显的看出，相比第一版本，第二版本采用了多尺度输入处理的方式。并且整体是改进最先进的ResNet图像分类DCNN构建了DeepLabv2的残差网络变体。

相比于传统的全卷积层，在这些网络的连续层中重复使用最大池化和步幅操作会显著降低特征图的空间分辨率，然而使用空洞卷积可以获得不错的分辨率。使用一个“带孔”的滤波器对完整分辨率的图像进行卷积，其中作者将原始滤波器上采样两倍，并在滤波器值之间插入零。虽然有效滤波器大小增加了，但实际只需要考虑非零滤波器值，因此滤波器参数的数量和每个位置的操作数量保持恒定。由此产生的方案可以轻松且明确地控制神经网络特征响应的空间分辨率。

在DCNN（深度卷积神经网络）的背景下，可以在一系列层中使用空洞卷积，从而有效地使我们能够以任意高分辨率计算最终的DCNN网络响应。例如，为了在VGG-16或ResNet-101网络中增加计算特征响应的空间密度，作者找到降低分辨率的最后一个池化或卷积层（分别为'pool5'或'conv5 1'），将其步幅设置为1以避免信号减采样，并将所有后续的卷积层替换为空洞卷积层，其中的rate r = 2。将这种方法推广到整个网络可能能够在原始图像分辨率上计算特征响应，但这将会带来过高的计算成本。相反，作者采用了一种混合方法，以在效率和准确性之间取得良好的平衡，使用空洞卷积将计算的特征图的密度增加4倍，然后通过额外的8倍快速双线性插值恢复到原始图像分辨率的特征图。

通过对在单一尺度提取的卷积特征进行重采样来准确高效地对任意尺度的区域进行分类。我们实现了该方案的一个变体，使用具有不同采样率的多个并行空洞卷积层。为每个采样率提取的特征被进一步在单独的分支中处理和融合以生成最终结果。这种方法叫“空洞空间金字塔池化”（DeepLab-ASPP）。结构如下图所示。