DeepLabV1-学习记录

最新推荐文章于 2024-09-11 17:34:12 发布

羊村第一突破手懒羊羊

最新推荐文章于 2024-09-11 17:34:12 发布

阅读量39

点赞数

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/lzf767801/article/details/132034550

版权

本文介绍了DeepLab利用深度卷积网络(DCNN)和条件随机场(CRF)解决图像像素级分类，尤其是语义图像分割的方法。通过有孔卷积和CRF模型改善了传统方法的问题，如信号下采样和空间不敏感性，以提高目标分割的准确性。

摘要由CSDN通过智能技术生成

引入：本次学习内容基本来自于Liang-Chieh Chen，George Papandreou编写的的《SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTE》，以及部分讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。
（一）摘要：DeepLab将深度卷积网络（DCNN）和概率图模型的方法结合起来，用于解决像素级分类任务（也称为"语义图像分割"）。作者发现，DCNN最后一层的响应对于准确的目标分割来说不够局部化，并通过将最终DCNN层的响应与完全连接的条件随机场（CRF）结合起来，克服了深度网络的这种较差局部化性质。并且取得了不错的效果。

（二）发表时间：2014

（三）关键词：图像分割，全卷积神经网络

（四）学习记录：

传统的图像标注存在两个主要问题，一个是信号下采样，一个是空间不敏感性。为了解决这两个问题，作者采用了“有孔”算法和CRF。

有孔算法通过在CNN的卷积层中引入空洞（或孔）。具体来说，在传统的卷积操作中，卷积核的每个元素与输入特征图的相应位置进行卷积运算，然后将结果进行求和形成输出特征图的一个像素。而在有孔卷积中，卷积核的元素之间有一定的间隔，即存在“孔”，从而增加了输出特征图的像素之间的距离。这样做可以有效地保持输出特征图的分辨率，同时增加了感受野的大小。

而CRF通过定义一组特征函数和对应的权重来建模输入数据和输出标签之间的关系。这些特征函数可以考虑局部观测以及观测之间的相互作用，从而捕捉到数据的上下文信息。CRF的输出是给定输入数据条件下，使得条件概率最大化的标签序列。两者使用都有不错的效果。

整体结构是在VGG-16的模型上完成的，将VGG-16的全连接层转换为卷积层，并以卷积方式在原始分辨率上运行网络。但是这样还是不够的，因此作者在最后两个最大池化层之后跳过子采样，并通过引入零来增加其后续卷积层的卷积滤波器的长度。作者通过保持滤波器不变，并使用输入步幅为2或4像素在它们应用的特征图上稀疏采样来更高效地实现这一点。这种方法被称为“孔洞算法”。

同时，作者也对VGG-16进行了更改，例如把其最后的1000-way更换为21-way，改变感受野大小，减少全连接层通道数等。

作者使用的全连接CRF模型，因为CRF模型基本是用来做图像平滑处理的，对于分割问题不是很够用。其基本思路就是。每个像素点多有对象的标签值和预测值，以每个像素为节点，像素间的关系为边建立CRF模型，以此来模型中观测预测值和标签值。