[论文笔记]DDRNet

最新推荐文章于 2024-09-26 07:38:28 发布

Meliodas`

最新推荐文章于 2024-09-26 07:38:28 发布

阅读量2.5k

点赞数 2

分类专栏： Segmentation 文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lxp_CC/article/details/124798428

版权

Segmentation 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Abstract

DDRNet由两个深度分支组成，在这两个分支之间执行多次双边融合
上下文提取器Deep Aggregation Pyramid Pooling Module (DAPPM)扩大有效感受域，并基于低分辨率特征映射融合多尺度上下文
精度高且轻量

Introduction

Bisenet提出了一种由空间路径和上下文路径组成的新型双边网络，空间路径利用三个相对较宽的3×3卷积层来捕获空间细节，上下文路径是一个小型的预训练backbone，用于提取上下文信息
- 这种双边网络相对于encoder-decoder结构来说推理速度更快
DDRNet
- 从一个主干开始，然后分离成两个并行的分支
  - 一个分支生成高分辨率特征图
  - 一个分支通过多次下采样提取高级语义信息
- 两个分支之间进行多次双边连接，实现高效信息融合
- 提出了一个DAPPM的新模块，该模块将特征聚合与金字塔池化相结合，输入低分辨率特征图，提取多尺度上下文信息，并以级联方式合并上下文信息

Related work

High-performance Semantic Segmentation

DeepLabv3+提出了一种简单的解码器，将上采样特征映射与低级别特征映射相融合,减轻了对直接从扩展卷积生成的高分辨率特征图的要求
HRNet强调了深度高分辨率表示，反映了比膨胀主干更高的效率，并且由于高分辨率信息通道数较小，计算效率和推理速度更高

Real-time Semantic Segmentation

大部分实时方法都是基于两种结构
- encoder-decoder结构
- 二分支结构

Encoder-decoder Architecture

encoder一般是一个包含重复下采样的深度网络，可以提取上下文信息，decoder通过插值法或反卷积将特征图的分辨率恢复，与基于扩张卷积的方法相比节省了计算开销
SwiftNet保留了ImageNet上预训练encoder的优势，并利用轻型横向连接来帮助进行上采样
FANet通过快速注意模块和额外下采样，在速度和准确性之间实现了良好平衡
SFNet设计了一个Flow Alignment Module（FAM），用于对齐相邻层的特征图，以实现更好的融合

Two-pathway Architecture

encoder-decoder结构虽然减少了计算开销，但是由于多次下采样，导致空间细节信息丢失，并且无法通过上采样完全恢复
二分支包含一条提取语义信息的路径，一条高分辨率的浅层路径提供了丰富的空间细节作为补充
BiSeNetV2两个分支从一开始就分离，使用全局平均池化进行上下文嵌入，并提出了基于注意的特征融合

Lightweight Encoders

MobileNet将标准卷积替换为深度可分离卷积，以减少参数和计算量
ShuffleNet利用分组卷积的紧凑性，提出了一种channel shuffle操作，促进不同组之间的信息融合

Context Extraction Modules

Atrous Spatial Pyramid Pooling (ASPP)由具有不同扩张率的扩张卷积并行组成，可以处理多尺度上下文信息
PSPNet中的Pyramid Pooling Module（PPM）通过在卷积层之前实现池化，在计算效率上比ASPP更高
Dual Attention Network（DANet）利用位置注意和通道注意进一步改善特征表示
Object Context Network (OCNet)使用自注意机制来捕获物体上下文信息

Method

Deep Dual-resolution Network

backbone结构

其中详细结构配置如下

双边融合包括高分辨率融合到低分辨率和低分辨率融合到高分辨率
- 高分辨率融合到低分辨率前通过一个conv3x3 stride 2的序列下采样并扩展通道，然后通过逐像素相加融合
- 低分辨率融合到高分辨率前通过conv1x1压缩通道，然后通过双线性插值上采样再逐像素相加融合

Deep Aggregation Pyramid Pooling Module

用单个conv3x3或conv1x1来融合所有多尺度上下文信息是不合理的

DAPPM首先将下采样后的特征图进行上采样，然后通过多个conv3x3以分层残差方式融合不同尺度的上下文信息，最后拼接所有特征图并使用conv1x1压缩通道
侧边还增加了conv1x1特征映射，便于优化
DAPPM虽然卷积层多，但是由于是在1/64的分辨率上执行，并不会影响推理速度

Overall Architecture for Semantic Segmentation

Deep Supervision

训练阶段的额外监督可以简化深度CNN的优化
最终loss是交叉熵loss的加权和
- Lf为final loss，Ln为正常交叉熵，Lα为辅助交叉熵，α为辅助损失的权重

Conclusion

一个新的深度双分辨率网络作为实时语义分割的有效backbone
一个新的上下文提取器DAPPM
首次将深度高分辨率表示应用到实时分割
DDRNets主要由residual basic blocks和bottleneck blocks组成，通过缩放模型宽度和深度，提供了广泛的速度和精度权衡

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。