论文阅读：DeeplabV1,v2

最新推荐文章于 2024-07-25 10:14:55 发布

撕破伤丶口丶

最新推荐文章于 2024-07-25 10:14:55 发布

阅读量174

点赞数

文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_43388050/article/details/109561385

版权

1.问题域

在Abstract中，描述了作者所解决的问题，即DCNNs(Deep Convolutional Neural Networks)的最后一层并不足以去精确定位目标分割（目标边界）。原因是：因为DCNNs的平移不变性，导致DCNNs适合于高级的任务（语义分割属于低级的任务，只需要精确定位目标边界，而不要抽象的空间信息）。解决方案：将DCNN的最后一层连接一个全连接的CRF(Conditional Random Field条件随机场)。
在Introduction中，描述了DCNNs应用的两个问题，分别是信号下采样以及空间不敏感。第一个问题涉及到：在DCNN中重复最大池化和下采样会带来分辨率下降的问题，分辨率的下降会丢失细节，DeepLab采用的是atrous（带孔）算法扩展感受野，获取更多的上下文信息。第二个问题涉及到：分类器获取到以对象为中心的决策是需要空间变换不变性，这自然会限制DCNN的定位精度，DeepLab采用完全连接的条件随机场(Dense CRF)提高模型捕获细节的能力。
在这里插入图片描述
其实atrous算法就是空洞卷积

2.advantage

（1）speed：借助了atrous算法以及降低的感受野尺寸，dense DCNN以8fps运行，全连接CRF的平均推理时间为0.5秒。
（2）accuracy：就超过了当时很厉害的方法
（3）simplicity：系统级联了当时相对成熟的模块，DCNNs以及CRFs。

3. difference

文章提出的模型与当时牛逼的网络模型最大的不同就在于DCNNs和像素级别CRF的结合，文章的方法是将每一个像素看作是CRF节点，利用远程依赖关系，并使用CRF推理直接优化DCNN的损失函数。

4. DCNN和定位挑战

深层卷积网络的平移不变性和更大的感受野使得位置定位变得更难，需要在分类精度和定位精度之间进行折中。解决这样问题有两个方向：一个方向是利用来自卷积网络不同层的信息来更好地预测目标边界；另一个方向是利用超参数表示，将定位任务托付给一个低级的分割方法。

DeepLabv2:

v2版本的DeepLab其实就是比v1版本多了一个多尺度预测(Mutil-scale prediction)。
在这里插入图片描述
在输入图片和前四个最大池化层后添加MLP（多层感知机，第一层是128个3×3卷积，第二层是128个1×1卷积），得到预测结果。最终输出的特征图送到模型的最后一层辅助预测，那么模型的最后的softmax层输入特征为4098+5×128=4736个通道数。

撕破伤丶口丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：DeeplabV1,v2

1.问题域在Abstract中，描述了作者所解决的问题，即DCNNs(Deep Convolutional Neural Networks)的最后一层并不足以去精确定位目标分割（目标边界）。原因是：因为DCNNs的平移不变性，导致DCNNs适合于高级的任务（语义分割属于低级的任务，只需要精确定位目标边界，而不要抽象的空间信息）。解决方案：将DCNN的最后一层连接一个全连接的CRF(Conditional Random Field条件随机场)。在Introduction中，描述了DCNNs应用的两个问题，
复制链接

扫一扫