看了github 作者是在pid的基础上实现的 过两天会写一下pidnet
仅作个人笔记 喷我我会立即激情开麦
摘要
作者首先肯定了空洞卷积的作用 发现之前没将空洞卷积应用到模型的浅层(shallow layer)中 并且作者验证使用大的卷积核来应用空洞卷积可能更加有效 作者提出了DSNET 将空洞卷积用在了模型的浅层中 并且将整个enconder都在imagenet上做了预训练 作者说其实现了新sota
介绍
作者从RepLKNet在这篇论文中得到的灵感说:感受野的有效范围比注意力还关键 说在RepLKNet以及几篇论文中堆叠空洞卷积没啥用 但是他们没在浅层中使用
同时作者做了实验(从atrous rate 2到15 得到了一下经验) 1 使用空洞卷积+密集卷积 2 选择合适的atrous rate 3 适当的融合模块
相关工作
就是介绍了实时的和非实时的一些工作 可以积累起来后面自己写论文用
框架
这一节主要是对于作者对不同的膨胀率的得出的三条经验来描述的
在介绍整体的方法之前 作者从这三条经验分别来说的 首先是说只使用空洞卷积的危害 然后说过大的空洞率会导致空洞卷积覆盖超出未填充的特征图造成过大的填充区域,限制模型的学习能力 第三就是要设计好的特征融合模块 不能简单地加法或者串联
下面正式开始介绍DSNet
两条分支 经典Context+spatial branch 上下文分支主要由空洞卷积组成 (MFACB 后面会说到) 空间分支主要由3*3的密集卷积组成
特征融合由MSAF组成(后面也会提到) backbone主要由膨胀率为2,3的膨胀卷积组成 提出一个SPASPP上下文模块将其插入分割任务中的主干网之外来增加感受野
上下文分支MFACB
一共三个版本1,轻量级版本DSNET 推理速度较快 2 DSNET-Base 精确度高 3DSNET-Base 比DSNET有更多的通道数
MFACB:
作者从(STDC我的第一篇笔记)获得的灵感设计的此模块 由三个空洞卷积组成 每一个都有不同的膨胀率来扩大感受野 三个卷积之后用1*1卷积连接中间特征图并进行通道压缩 最后压缩后的特征图与输入的特征图进行残差连接
从此表可以看出 在第一个空洞率为[2,2,2]的MFACB模块之后,三个中间特征图的感受野分别为5×5、9×9 、 和 13×13 分别。 随后,通过串联和1×1卷积,输出特征图同时聚合这三个不同尺度的感受野。 在第二个MFACB模块中的连接和融合操作之后,出于同样的原因,当前层的感受野的规模开始增加。 在主干网络中使用MFACB可以使模型有效地学习不同尺度的语义信息。
MSAF: 旨在实现两个不同级别分支之间的选择性学习 不会互相淹没 主要思想是让网络根据损失学习特征权重 让模型有选择的融合来自不同尺度的信息
主要由两部分组成MSA+MSAF
MSA主要是学习权重α 作为不同层次分支融合的基础
MSA主要由两部分组成 区域注意力(Region Attention)和像素注意力 (: Pixel Attention)
区域注意力 (Region Attention): 衡量特征图中不同区域的重要性.作者说在使用注意力的时候必须要考虑感受野. 为了方便起见,作者将特征图划分为相同大小的块(因为vit就是这样?),例如通道为1×1,4个块为2×2,16个块为4×4。 在 DSNet 中,我们将特征图划分为 1×1、4×4、8×8 和 16×16 等大小的区域。(特征图被分成了1x1 4x4 8x8和16x16这样不同尺度的块 每个块的大小是这么大 尺寸大的块可以捕获全局特征尺寸小的块可以捕获局部细节特征) 然后就是一系列的池化等等操作可以看图(画的比较清楚 下面是公式)
像素注意力(Pixel Attention):这不需要池化和重塑 这就是图4下面那个橙色框框
然后就是最后的MSAM: 叠加以上两种注意力来获得特征图中不同位置的权重 最终通过element-wise乘法(4)来融合两个分支 下面是公式
SPASPP:
这个SPASPP是为了进一步提取上下文信息 与aspp不同 作者叠加了多个3*3的空洞卷积 随后,作者将通过堆叠空洞卷积获得的中间特征图与全局池化后的上采样特征图连接起来。 堆叠空洞卷积和连接的目的是 在预训练的 ImageNet 主干网络之外使用此上下文模块快速增加感受野,同时还获得不同尺度的上下文信息。 然后,我们使用 1 × 1 卷积压缩通道并与输入执行残差连接。 使用加法而不是完全并行模式的目的是让模型获得更丰富的上下文信息并获得更大的感受野
实验
最后就是实验了 肯定都说自己好 这里就不在过多阐述了
首先是MSAF模块 作者说这个模块在分类(Imagenet1)和分割(Cityscapes)任务上都能涨点
MFACB模块
在相同的空洞率和相同的空洞卷积模块数量下 MFACB比BasicBlock实现了更好的性能
SPASPP
整体对比 在ADE20K上
BDD上
cityscapes