Abstract
-
DDRNet由两个深度分支组成,在这两个分支之间执行多次双边融合
-
上下文提取器Deep Aggregation Pyramid Pooling Module (DAPPM)扩大有效感受域,并基于低分辨率特征映射融合多尺度上下文
-
精度高且轻量
Introduction
-
Bisenet提出了一种由空间路径和上下文路径组成的新型双边网络,空间路径利用三个相对较宽的3×3卷积层来捕获空间细节,上下文路径是一个小型的预训练backbone,用于提取上下文信息
-
这种双边网络相对于encoder-decoder结构来说推理速度更快
-
-
DDRNet
-
从一个主干开始,然后分离成两个并行的分支
-
一个分支生成高分辨率特征图
-
一个分支通过多次下采样提取高级语义信息
-
-
两个分支之间进行多次双边连接,实现高效信息融合
-
提出了一个DAPPM的新模块,该模块将特征聚合与金字塔池化相结合,输入低分辨率特征图,提取多尺度上下文信息,并以级联方式合并上下文信息
-
Related work
High-performance Semantic Segmentation
-
DeepLabv3+提出了一种简单的解码器,将上采样特征映射与低级别特征映射相融合,减轻了对直接从扩展卷积生成的高分辨率特征图的要求
-
HRNet强调了深度高分辨率表示,反映了比膨胀主干更高的效率,并且由于高分辨率信息通道数较小,计算效率和推理速度更高
Real-time Semantic Segmentation
-
大部分实时方法都是基于两种结构
-
encoder-decoder结构
-
二分支结构
-
Encoder-decoder Architecture
-
encoder一般是一个包含重复下采样的深度网络,可以提取上下文信息,decoder通过插值法或反卷积将特征图的分辨率恢复,与基于扩张卷积的方法相比节省了计算开销
-
SwiftNet保留了ImageNet上预训练encoder的优势,并利用轻型横向连接来帮助进行上采样
-
FANet通过快速注意模块和额外下采样,在速度和准确性之间实现了良好平衡
-
SFNet设计了一个Flow Alignment Module(FAM),用于对齐相邻层的特征图,以实现更好的融合
Two-pathway Architecture
-
encoder-decoder结构虽然减少了计算开销,但是由于多次下采样,导致空间细节信息丢失,并且无法通过上采样完全恢复
-
二分支包含一条提取语义信息的路径,一条高分辨率的浅层路径提供了丰富的空间细节作为补充
-
BiSeNetV2两个分支从一开始就分离,使用全局平均池化进行上下文嵌入,并提出了基于注意的特征融合
Lightweight Encoders
-
MobileNet将标准卷积替换为深度可分离卷积,以减少参数和计算量
-
ShuffleNet利用分组卷积的紧凑性,提出了一种channel shuffle操作,促进不同组之间的信息融合
Context Extraction Modules
-
Atrous Spatial Pyramid Pooling (ASPP)由具有不同扩张率的扩张卷积并行组成,可以处理多尺度上下文信息
-
PSPNet中的Pyramid Pooling Module(PPM)通过在卷积层之前实现池化,在计算效率上比ASPP更高
-
Dual Attention Network(DANet)利用位置注意和通道注意进一步改善特征表示
-
Object Context Network (OCNet)使用自注意机制来捕获物体上下文信息
Method
Deep Dual-resolution Network
-
backbone结构
-
其中详细结构配置如下
-
双边融合包括高分辨率融合到低分辨率和低分辨率融合到高分辨率
-
高分辨率融合到低分辨率前通过一个conv3x3 stride 2的序列下采样并扩展通道,然后通过逐像素相加融合
-
低分辨率融合到高分辨率前通过conv1x1压缩通道,然后通过双线性插值上采样再逐像素相加融合
-
Deep Aggregation Pyramid Pooling Module
-
用单个conv3x3或conv1x1来融合所有多尺度上下文信息是不合理的
-
DAPPM首先将下采样后的特征图进行上采样,然后通过多个conv3x3以分层残差方式融合不同尺度的上下文信息,最后拼接所有特征图并使用conv1x1压缩通道
-
侧边还增加了conv1x1特征映射,便于优化
-
DAPPM虽然卷积层多,但是由于是在1/64的分辨率上执行,并不会影响推理速度
Overall Architecture for Semantic Segmentation
Deep Supervision
-
训练阶段的额外监督可以简化深度CNN的优化
-
最终loss是交叉熵loss的加权和
-
Lf为final loss,Ln为正常交叉熵,Lα为辅助交叉熵,α为辅助损失的权重
-
Conclusion
-
一个新的深度双分辨率网络作为实时语义分割的有效backbone
-
一个新的上下文提取器DAPPM
-
首次将深度高分辨率表示应用到实时分割
-
DDRNets主要由residual basic blocks和bottleneck blocks组成,通过缩放模型宽度和深度,提供了广泛的速度和精度权衡