DeepLap 系列论文

DeepLap 系列论文

分割中仍存在的问题

1、不断降低的分辨率,连续的池化或下采样导致图像的分辨率大幅下降,从而损失了原始信息,且在上采样过程中难以恢复。因此,越来越多的网路都在试图减少分辨率的损失,比如使用空洞卷积,或者使用步长为2的卷积操作代替池化。实验证明,此类方法是有效的。

2、多尺度目标的存在,无法很好的分割。

3、定位精度比较低,对物体的边界分割不够细化。

DeepLap v1

摘要

主要背景:DCNNs 的最后一层不足以进行精确分割目标。

主要贡献:本文将深度卷积神经网络和CRF(条件随机场)相结合,克服了深度网络的较差的局部化特征,同时模型创新性的将Hole(即空洞卷积)算法应用到DCNNs模型上。

网络效果:该网络在超过了以前的方法的精度。

介绍

DCNN 在图像标记任务中存在两个技术障碍:1)信号下采样;2)空间不敏感;

第一个问题涉及到:在DCNN中重复最大池化和下采样带来的分辨率下降问题,分辨率的下降会丢失细节。DeepLab是采用的***atrous***(带孔)算法扩展感受野,获取更多的上下文信息。

第二个问题涉及到:分类器获取以对象中心的决策是需要空间变换的不变性,这天然的限制了DCNN的定位精度,DeepLab采用完全连接的条件随机场(DenseCRF)提高模型捕获细节的能力。

主要贡献:

速度:带空洞卷积算法(atrous)的DCNN 可以保持8FPS的速度,全连接CRF平均推断需要0.5s.

准确:在PASCAL 语义分割挑战中获得了第二。

简单:DeepLab 是由两个非常成熟的模块(DCNN和CRFS)级联而成。

网络结构DCNN

作者为了加载预先在ImageNet训练好的VGG-16模型,并保证图片仅缩放了8倍做了如下修改:

  • 把全连接层(fc6、fc7、fc8)改成卷积层(做分割)
  • 把最后两个池化层(pool4、pool5)的步长2改成1(padding 到原来大小)(保证feature的分辨率)
  • 把最后三个卷积层(conv5_1、conv5_2、conv5_3)的dilate rate设置为2,且第一个全连接层的dilate rate设置为4(保持感受野)
  • 把最后一个全连接层fc8的通道数从1000改为21(分类数为21)

为了加速训练,作者将第一个全连接层fc6,通道数从4096变为1024,卷积核大小从7x7变为3x3,后续实验中发现此处的dilate rate为12时(LargeFOV),效果最好。

img

空洞卷积:

img

蓝色部分是输入:7x7 image

青色部分为输出:3x3 image

空洞卷积核:3x3 kernel,采样率(扩张率)为2,无padding

这种带孔的采样又称***atrous算法***,可以稀疏的采样底层特征映射,该方法具有通常性,并且可以使用任何采样率计算密集的特征映射。在VGG16中使用不同采样率的空洞卷积,可以让模型再密集的计算时,明确控制网络的感受野。保证DCNN的预测图可靠的预测图像中物体的位置。

训练时将预训练的VGG16的权重做fine-tune,损失函数取是输出的特征图与ground truth下采样8倍做交叉熵和;测试时取输出图双线性上采样8倍得到结果。但DCNN的预测物体的位置是粗略的,没有确切的轮廓。在卷积网络中,因为有多个最大池化层和下采样的重复组合层使得模型的具有平移不变性,我们在其输出的high-level的基础上做定位是比较难的。这需要做分类精度和定位精度之间是有一个自然的折中。

CRF在语义分割上的应用:

对于每个像素位置ii具有隐变量xi(这里隐变量就是像素的真实类别标签,如果预测结果有21类,则(i∈1,2,…,21),还有对应的观测值yi(即像素点对应的颜色值)。以像素为节点,像素与像素间的关系作为边,构成了一个条件随机场(CRF)。通过观测变量yi来推测像素位置i对应的类别标签xi。条件随机场示意图如下:

img

Fully connected CRF

CNN是一个逐步提取特征的部分&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值