DeepLabv3+

最新推荐文章于 2024-08-19 09:04:27 发布

like_study_cat

最新推荐文章于 2024-08-19 09:04:27 发布

阅读量6.6k

点赞数 3

分类专栏： deeplab

本文链接：https://blog.csdn.net/like_study_cat/article/details/103970223

版权

deeplab 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

DeepLabv3+

引言

语义分割中的DCNN主要有两种结构：空间金字塔池化SPP和编码器-解码器encoder-decoder

SPP通过多种感受野池化不同分辨率的特征来挖掘上下文信息。

Encoder-decoder逐步重构空间信息来更好的捕捉物体的边缘。

在这里插入图片描述 DeepLabv3+对DeepLabv3进行了拓展，在encoder-decoder结构上采用SPP模块。encoder提取丰富的语义信息，decoder恢复精细的物体边缘。encoder允许在任意分辨率下采用空洞卷积。

DeepLabv3+贡献

提出一个encoder-decoder结构，其包含DeepLabv3作为encoder和高效的decoder模块。
encoderdecoder结构中可以通过空洞卷积来平衡精度和运行时间，现有的encoder-decoder结构是不可行的。
在语义分割任务中采用Xception模型并采用depthwise separable convolution，从而更快更有效。

相关工作

SPP

收集多尺度信息。
PSPNet、DeepLab

Encoder-decoder

encoder逐渐减小feature map并提取高层语义信息。
decoder逐渐恢复空间信息。

Depthwise separable convolution

深度可分离卷积或group convolution，在保持性能前提下，有效降低了计算量和参数量。

方法

Encoder-Decoder
空洞卷积：
该部分见DeepLabv2

在这里插入图片描述

深度可分离卷积：
深度可分离卷积将标准卷积分解为depthwise conv后跟一个pointwise conv，有效地降低了计算复杂度。
depthwise conv对每个输入通道分别进行spatial conv。
pointwise conv合并depthwise conv的输出。
我们提出atrous separable conv，其在保持性能前提下，有效降低了计算量和参数量。

DeepLabv3作为encoder：
令outputstride等于输入图像分辨率和输出分辨率的比值。
图像分类任务，最终的feature map通常比输入图像分辨率小32倍，因此outputstride=32。
语义分割任务，令outputstride=16or8，通过移除最后1or2个blocks并应用空洞卷积（rate=2or4

）来密集提取特征。

在我们的encoder-decoder结构中，采用DeepLabv3最后的feature map作为encoder的输出，包含256
个通道并富含语义信息。此外，可以通过空洞卷积以任意分辨率提取特征，取决于计算量。

decoder：
在这里插入图片描述
DeepLabv3以factor=16上采样。
DeepLabv3+首先以factor=4上采样，然后和尺寸相同的低层特征相拼接。低层特征采用1×1卷积降维，因为低层特征维度一般比较高（256or512），将占较大权重（我们的模型只有256），使得训练变困难。拼接之后，我们采用3×3的卷积来细化特征，然后再以factor=4双线性插值。

改进 Aligned Xception
Xception模型用于图像分类任务，Aligned Xception用于物体检测任务，我们对Xception做了一些变化使其可用于语义分割任务。
1）更多的层，为了计算量和内存，不对Entry flow网络结构进行修改。
2）所有池化层替换为depthwise separable conv，以便采用 atrous separable conv提取任意分辨率的特征。
3）类似于MobileNet，在每个3×3后添加额外的BN和ReLU。

在这里插入图片描述