[论文笔记]DDRNet

Abstract

  • DDRNet由两个深度分支组成,在这两个分支之间执行多次双边融合

  • 上下文提取器Deep Aggregation Pyramid Pooling Module (DAPPM)扩大有效感受域,并基于低分辨率特征映射融合多尺度上下文

  • 精度高且轻量

Introduction

  • Bisenet提出了一种由空间路径和上下文路径组成的新型双边网络,空间路径利用三个相对较宽的3×3卷积层来捕获空间细节,上下文路径是一个小型的预训练backbone,用于提取上下文信息

    • 这种双边网络相对于encoder-decoder结构来说推理速度更快

  • DDRNet

    • 从一个主干开始,然后分离成两个并行的分支

      • 一个分支生成高分辨率特征图

      • 一个分支通过多次下采样提取高级语义信息

    • 两个分支之间进行多次双边连接,实现高效信息融合

    • 提出了一个DAPPM的新模块,该模块将特征聚合与金字塔池化相结合,输入低分辨率特征图,提取多尺度上下文信息,并以级联方式合并上下文信息

Related work

High-performance Semantic Segmentation

  • DeepLabv3+提出了一种简单的解码器,将上采样特征映射与低级别特征映射相融合,减轻了对直接从扩展卷积生成的高分辨率特征图的要求

  • HRNet强调了深度高分辨率表示,反映了比膨胀主干更高的效率,并且由于高分辨率信息通道数较小,计算效率和推理速度更高

Real-time Semantic Segmentation

  • 大部分实时方法都是基于两种结构

    • encoder-decoder结构

    • 二分支结构

Encoder-decoder Architecture

  • encoder一般是一个包含重复下采样的深度网络,可以提取上下文信息,decoder通过插值法或反卷积将特征图的分辨率恢复,与基于扩张卷积的方法相比节省了计算开销

  • SwiftNet保留了ImageNet上预训练encoder的优势,并利用轻型横向连接来帮助进行上采样

  • FANet通过快速注意模块和额外下采样,在速度和准确性之间实现了良好平衡

  • SFNet设计了一个Flow Alignment Module(FAM),用于对齐相邻层的特征图,以实现更好的融合

Two-pathway Architecture

  • encoder-decoder结构虽然减少了计算开销,但是由于多次下采样,导致空间细节信息丢失,并且无法通过上采样完全恢复

  • 二分支包含一条提取语义信息的路径,一条高分辨率的浅层路径提供了丰富的空间细节作为补充

  • BiSeNetV2两个分支从一开始就分离,使用全局平均池化进行上下文嵌入,并提出了基于注意的特征融合

Lightweight Encoders

  • MobileNet将标准卷积替换为深度可分离卷积,以减少参数和计算量

  • ShuffleNet利用分组卷积的紧凑性,提出了一种channel shuffle操作,促进不同组之间的信息融合

Context Extraction Modules

  • Atrous Spatial Pyramid Pooling (ASPP)由具有不同扩张率的扩张卷积并行组成,可以处理多尺度上下文信息

  • PSPNet中的Pyramid Pooling Module(PPM)通过在卷积层之前实现池化,在计算效率上比ASPP更高

  • Dual Attention Network(DANet)利用位置注意和通道注意进一步改善特征表示

  • Object Context Network (OCNet)使用自注意机制来捕获物体上下文信息

Method

Deep Dual-resolution Network

  • backbone结构

     

  • 其中详细结构配置如下

     

  • 双边融合包括高分辨率融合到低分辨率和低分辨率融合到高分辨率

    • 高分辨率融合到低分辨率前通过一个conv3x3 stride 2的序列下采样并扩展通道,然后通过逐像素相加融合

    • 低分辨率融合到高分辨率前通过conv1x1压缩通道,然后通过双线性插值上采样再逐像素相加融合

       

Deep Aggregation Pyramid Pooling Module

  • 用单个conv3x3或conv1x1来融合所有多尺度上下文信息是不合理的

     

  • DAPPM首先将下采样后的特征图进行上采样,然后通过多个conv3x3以分层残差方式融合不同尺度的上下文信息,最后拼接所有特征图并使用conv1x1压缩通道

  • 侧边还增加了conv1x1特征映射,便于优化

  • DAPPM虽然卷积层多,但是由于是在1/64的分辨率上执行,并不会影响推理速度

Overall Architecture for Semantic Segmentation

 

Deep Supervision

  • 训练阶段的额外监督可以简化深度CNN的优化

  • 最终loss是交叉熵loss的加权和

    • Lf为final loss,Ln为正常交叉熵,Lα为辅助交叉熵,α为辅助损失的权重

Conclusion

  • 一个新的深度双分辨率网络作为实时语义分割的有效backbone

  • 一个新的上下文提取器DAPPM

  • 首次将深度高分辨率表示应用到实时分割

  • DDRNets主要由residual basic blocks和bottleneck blocks组成,通过缩放模型宽度和深度,提供了广泛的速度和精度权衡

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值