谷歌开源语义图像分割模型DeepLab-v3+ 中

最新推荐文章于 2024-08-19 09:04:27 发布

furuit

最新推荐文章于 2024-08-19 09:04:27 发布

阅读量1.1k

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fu6543210/article/details/80731691

版权

深度学习专栏收录该内容

86 篇文章 17 订阅

订阅专栏

理解DeepLab V3+的构架首先需要理解DeepLab V3，V3+基本上可以理解成在原始的基础上增加了encoder-decoder模块，进一步保护物体的边缘细节信息。除此之外，也展示了在Xception网络上构架的优势。

Motivation
可以发现DeepLab V3版本ASPP得到的特征分辨率即使在采用atrous convolution的情况下，依然有8倍的缩小。个人认为为什么不采用resolution-presevation策略的原因在于，GPU内存的限制，不能够确保卷积过程中每个特征具有那么大的维度。然而在DeepLab v3的最后直接对1/8分辨率的结果图进行上采样，恢复成原始分辨率大小，得到逐项素的分割结果。
可想而知，这样直接上采样操作（可以理解成naive decoder）并不能充分恢复在降采样为1/8分辨率过程中损失的细节信息，所以造成了分割的不精确。所以这篇文章在DeepLab V3的基础上，类似于FCN、SegNet、U-Net的形式，加入decoder的形式恢复原始分辨率的分割结果，使得边缘细节信息能够较好的保留。
创新点
- 将DeepLab V3作为编码器（利用atrous convolution生成任意维度的特征，并采用ASPP策略），在其后面级联解码器进而恢复边界细节信息。
- 探究了ResNet-101替换成Xception模型的可行性，采用depthwise separable convolution进一步提高分割算法的精度和速度。
算法细节

主要看一下decoder部分，首先采用1*1的卷积核主要是为了对low-level特征通道进行压缩（一般压缩到48），这样能够使得后面的特征对于encoder得到的特征（256通道）有一个偏重，这样可以保证更好的high-level语义信息。然后这边的话也仅仅融合了一个low-level的特征，并没有像FCN、U-Net一样在解码过程中融合很多low-level信息。

======================

简述一下变动
使用Xception+ASPP的强encoder
deeplabv3的output stride = 16 再通过双线性插值恢复至原图大小但这丢失了许多细节信息
这里改成上采样×4 和一个low-level的信息结合来decoder

下面是Xception 的变动
这里写图片描述
未改动entry flow

用步长不为1的深度可分离卷积取代池化层

=====================

参考：https://blog.csdn.net/JYZhang_CVML/article/details/79594940

https://blog.csdn.net/qrfaction/article/details/79333959

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。