DeepLab V1论文学习笔记

      (注: 因为决定研究生方向是研究深度学习的图像语义分割,从研一开始陆续阅读了一系列语义分割相关的论文,本次是阅读深度学习语义分割经典论文DeepLab的V1版本时做的笔记,如有理解有误的地方欢迎交流指正。)

原文地址:DeepLabv1: Semantic image segmentation with deep convolutional nets and fully connected CRFs

收录:ICLR 2015 (International Conference on Learning Representations)

DeepLab系列是谷歌团队针对语义分割(Semantic Segmentation)任务提出的深度学习系统。

模型结构:

DeepLab V1模型

在VGG16的基础上做了修改:

  • VGG16的全连接层(FC层)转为卷积层(步幅32,步幅=输入尺寸/输出特征尺寸)
  • 最后的两个池化层去掉了下采样(目标步幅8)
  • 后续卷积层的卷积核改为了空洞卷积(扩大感受野,缩小步幅)
  • 在ImageNet上预训练的VGG16权重上做fine-tune(迁移学习)
    VGG16模型结构图

核心研究问题:

DCNN存在的问题DeepLab的解决思路
1.多次池化、下采样使输出信号分辨率变小使用空洞卷积
2.池化对于输入变换具有内在空间不变性使用CRF

对于输出信号分辨率变小这一问题,FCN采用的是上采样(反卷积)的方法进行恢复,而DeepLab采用空洞卷积的方法。

DCNN分数图可以可靠地预测图像中对象的存在和粗略位置,但不太适合用于指向其精确轮廓。 卷积网络在分类精度和定位精度之间有自然的权衡:具有多个最大池化层的卷积神经网络在分类任务中已被证明是最成功的应用,然而,他们增加的不变性和大的感受野使得在其最后的输出层推断位置上有很大的难度。

空洞卷积的使用,借鉴于有效计算非抽样离散小波变换的”孔洞算法 ”,在VGG16中使用不同采样率的空洞卷积,可以让模型再密集的计算时,明确控制网络的感受野。保证DCNN的预测图可靠的预测图像中物体的位置。

通过使用成对的完全连接的条件随机场(CRF)可以提高模型捕获细节的能力,通过结合多路分类器与由像素和边缘或超像素局部交互捕获的低级信息来计算得出的分数。

DeepLab是结合了DCNNs的识别能力和全连接的CRF的细粒度定位精度,寻求一个结合的方法,结果证明能够产生准确的语义分割结果。

条件随机场(CRF)的应用:

对于每个像素位置ii具有隐变量xi(这里隐变量就是像素的真实类别标签,如果预测结果有21类,则(i∈1,2,..,21),还有对应的观测值yi(即像素点对应的颜色值)。以像素为节点,像素与像素间的关系作为边,构成了一个条件随机场(CRF)。通过观测变量yi来推测像素位置i对应的类别标签xi。条件随机场示意图如下:

完全连接的CRF模型采用能量函数

由一元势函数和二元势函数两部分组成。其中 x 是像素的标签分配。

       一元势函数是定义在观测序列位置ii的状态特征函数,用于刻画观测序列对标记变量的影响

,其中P(xi) 是由DCNN计算的像素 i 处的标签分配概率。

       二元势函数定义在不同观测位置上的转移特征函数,用于刻画变量之间的相关关系以及观测序列对其影响

简单来说,二元势函数是描述像素和像素之间的关系,如果比较相似,那可能是一类,否则就裂开,这可以细化边缘。一般的二元势函数只取像素点与周围像素之间的边,这里使用的是全连接,即像素点与其他所有像素之间的关系。

       CRF是后处理,不参与训练,测试时对特征提取后得到的feature map进行双线性插值,恢复到原图尺寸,然后再进行CRF处理。

 

 

     

 

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值