Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation论文解读

最新推荐文章于 2024-01-27 13:13:57 发布

CCCCCvi

最新推荐文章于 2024-01-27 13:13:57 发布

阅读量621

点赞数

本文链接：https://blog.csdn.net/weixin_43413958/article/details/84799354

版权

本文是谷歌公司在2018年发表的，应用于语义分割领域的新模型，也是被熟知的Deep Lab系列的改进版DeepLabv3+。可以将其看作一个组合模型，主体框架是Encoder-Decoder Structure，将ASPP（Atrous Spatial Pyramid Pooling ，带孔空间金字塔池化）嵌入Encoder模块，在Decoder模块中分两步上采样，并将Encoder模块的输出先进行上采样 $4\times$ ，再与前面卷积层中同维度的输出相连接（保证特征信息的完整性），再通过一次上采样 $4\times$ 恢复到原图像大小。

原文链接：https://arxiv.org/pdf/1802.02611.pdf

一. 文章的应用场景
图像语义分割，简单理解就是，对图像上的每个像素点进行分类，如下图所示，不同的颜色表示不同的类别。
语义分割最初是从深度学习中的FCN网络引入的，前端使用FCN进行特征粗提取，后端使用CRF/MRF优化前端的输出，最后得到分割图。[1]
在这里插入图片描述

二. DeepLab系列发展
DeepLab 是结合了深度卷积神经网络（DCNNs）和概率图模型（DenseCRFs）的方法。在实验中发现 DCNNs 做语义分割时精准度不够的问题，根本原因是 DCNNs 的高级特征的平移不变性，即高层次特征映射，根源于重复的池化和下采样。
针对信号下采样或池化降低分辨率，DeepLab 是采用的 atrous（带孔）算法扩展感受野，获取更多的上下文信息。
DeepLabv3+模型有以下几点优势：
（1）采用Encoder-Decoder模型，将其他模块嵌入其中；
（2）在上述结构中采用Atrous Convolution(空洞卷积)可以控制抓取特征的分辨率，改善特征图像分辨率低的问题；
（3）采用ASPP（Atrous Spatial Pyramid Pooling

最低0.47元/天解锁文章

CCCCCvi

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation论文解读

本文提出了一个改进版的Encoder-Decoder模型，将ASPP嵌入Encoder模块，在Decoder模块中分两步上采样，并将Encoder模块的输出先进行上采样再与前面卷积层中同维度的输出相连接（保证特征信息的完整性），再通过一次上采样恢复到原图像大小。原文链接：https://arxiv.org/pdf/1802.02611.pdf在图像分割领域，目的是为了区分背景和前景，能够得到关...
复制链接

扫一扫