论文阅读:DeeplabV1,v2

1.问题域

在Abstract中,描述了作者所解决的问题,即DCNNs(Deep Convolutional Neural Networks)的最后一层并不足以去精确定位目标分割(目标边界)。原因是:因为DCNNs的平移不变性,导致DCNNs适合于高级的任务(语义分割属于低级的任务,只需要精确定位目标边界,而不要抽象的空间信息)。解决方案:将DCNN的最后一层连接一个全连接的CRF(Conditional Random Field条件随机场)。
在Introduction中,描述了DCNNs应用的两个问题,分别是信号下采样以及空间不敏感。第一个问题涉及到:在DCNN中重复最大池化和下采样会带来分辨率下降的问题,分辨率的下降会丢失细节,DeepLab采用的是atrous(带孔)算法扩展感受野,获取更多的上下文信息。第二个问题涉及到:分类器获取到以对象为中心的决策是需要空间变换不变性,这自然会限制DCNN的定位精度,DeepLab采用完全连接的条件随机场(Dense CRF)提高模型捕获细节的能力。
在这里插入图片描述
其实atrous算法就是空洞卷积

2.advantage

(1)speed:借助了atrous算法以及降低的感受野尺寸,dense DCNN以8fps运行,全连接CRF的平均推理时间为0.5秒。
(2)accuracy:就超过了当时很厉害的方法
(3)simplicity:系统级联了当时相对成熟的模块,DCNNs以及CRFs。

3. difference

文章提出的模型与当时牛逼的网络模型最大的不同就在于DCNNs和像素级别CRF的结合,文章的方法是将每一个像素看作是CRF节点,利用远程依赖关系,并使用CRF推理直接优化DCNN的损失函数。

4. DCNN和定位挑战

深层卷积网络的平移不变性和更大的感受野使得位置定位变得更难,需要在分类精度和定位精度之间进行折中。解决这样问题有两个方向:一个方向是利用来自卷积网络不同层的信息来更好地预测目标边界;另一个方向是利用超参数表示,将定位任务托付给一个低级的分割方法。

DeepLabv2:

v2版本的DeepLab其实就是比v1版本多了一个多尺度预测(Mutil-scale prediction)。
在这里插入图片描述
在输入图片和前四个最大池化层后添加MLP(多层感知机,第一层是128个3×3卷积,第二层是128个1×1卷积),得到预测结果。最终输出的特征图送到模型的最后一层辅助预测,那么模型的最后的softmax层输入特征为4098+5×128=4736个通道数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值