Deeplab V1论文阅读

论文原文

https://arxiv.org/pdf/1412.7062v3.pdf

模型结构

论文上的原图是这样的:
在这里插入图片描述其实这里看的不是很清楚,我在一个博主的博客上看到了一个更加清楚的图,这里借用一下,出处:https://blog.csdn.net/qq_31622015/article/details/90551107

在这里插入图片描述
DeepLab的BackBone依赖于VGG16,具体改造方法就是:

  • 将最后的全连接层FC6,FC7,FC8改造成卷积层。
  • pool4的stride由2变成1,则紧接着的conv5_1,conv5_2和conv5_3中hole size为2。
  • 接着pool5由2变成1,则后面的fc6中的hole size为4。
  • fc7,fc8为标准的卷积。
  • 由于空洞卷积算法让feature map更加精细,因此网络直接采用插值上采样就能获得很好的结果,不用去学习上采样的参数了(FCN中采用了de-convolution)。

核心问题

以前的DCNN在做语义分割的时候,出现的问题一般有两个:1,多次池化,下采样使输出信号分辨率变小。2,不断下采样引起的图像分辨率变小导致的位置信息丢失。

空洞卷积

针对第一个问题,Deeplab提出了空洞卷积:空洞卷积的作用有两点,一是控制感受野,而是调整分辨率。
首先来看控制感受野,图来自:https://mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649032510&idx=1&sn=e65528e6ce1d0c31d9c7f20cdb171a90&chksm=8712b943b0653055fe820db0fb56b87d7ef4032e82261914e437e3c5bcec59d6abfd930f7e1d&scene=21#wechat_redirect
在这里插入图片描述我们可以看到从左到右的hole大小分别是1,6,24,这个hole的意思就是卷积核内两个权重之间的距离。从图中可以看出,当比率为1的时候,空洞卷积退化为普通卷积。很明显,应用了空洞卷积之后,卷积核中心的感受野增大了,但是如果控制步长为1,特征图的空间分辨率可以保持不变。
针对第二个问题,我们设置滑动的步长,就可以让空洞卷积增大感受野的同时也降低分辨率。

CRF

首先是因为图像在CNN里面通过不断下采样,原来的位置信息会随着深度减少甚至消失。最后会导致分类结果变得十分平滑,但是我们需要细节更加突出的结果,可以看下面的图:
在这里插入图片描述
这里引入了CRF来解决这个问题,首先CRF在传统图像处理上主要做平滑处理。对于CNN来说,short-range CRFs可能会起到反作用,因为我们的目标是恢复局部信息,而不是进一步平滑图像。本文引入了全连接CRF来考虑全局信息。

CRF的计算公式为:
E(x)=∑iθi(xi)+∑ijθij(xi,xj)E(x)=\sum_i \theta_i(x_i)+\sum_{ij}\theta_{ij}(x_i,x_j)E(x)=iθi(xi)+ijθ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值