论文阅读:ResNeSt

ResNeSt

Abstract

作者提出了一个新的模块,Split-Attention block分离注意力模块,能够跨特征图组使用注意力。像ResNet那种方式堆叠Split-Attention block得到的ResNet变体叫ResNeSt。作者将DeeplabV3中的backbone换成了ResNeSt,在ADE20K上的mIoU从42.1%提到了45.1%。

1 Introduction

前两段都会提出问题。

第一段说在图像分类上,大尺度的神经架构搜索(Neural Architecture Search,NAS)很大程度上提高了分类精度。然后问题来了:虽然NAS有SOTA的性能,但是NAS驱动的模型并没有去优化训练效率,也没有减少在通用的处理硬件(CPU/GPU)上的内存占用。由于这些模型训练要消耗大量内存,因此大部分的NAS模型在单GPU上训练,即使使用合适的单设备batch-size,这就限制了NAS驱动的模型的应用,特别是在密集预测如分割上。

第二段说ResNet模型存在的问题,即ResNet模型最初提出来是为了进行图像分类的,又因为感受野尺寸的限制以及缺少跨通道间的交互,那么这些模型就有可能不适合其他的任务。作者指出CV中各种任务的性能提升,都是对ResNet进行修改来去适应特定的CV任务,如增加各种模块,金字塔模块、引入长距离连接或使用跨通道特征图注意。论文还说最近的那些使用组卷积或depth-wise卷积的分类任务,虽然他们在计算和准确度上有很好的平衡,但由于他们独立的特征表示不能够获取跨通道的关系,因此他们不能很好的迁移到别的CV任务中去

之后说了文章了两个贡献:第一个就是提出了一个Split-Attention block,弄出了一个ResNeSt backbone;第二个就是这个backbone这图像分类、目标检测、实力分割以及语义分割上都达到了SOTA。

2 Related Work

多路径和特征图注意力:SE-Net引入了一个channel-attention机制来自适应校准通道特征相应。SK-Net通过两个网络分支实现了特征图注意力。论文提出的结构就是在特征图组表示中生成通道级注意力,感觉缝合了。

神经架构搜索NAS(Neural Architecture Search):随着计算能力的提升,人们的兴趣从人造架构转移到了系统地搜索自适应地使用特定任务的体系结构。但是NAS驱动模型的元网络结构都是不同的且内存消耗贼大,因此很难建立下游模型。

3 Split-Attention Networks

3.1 Split-Attention Block

Feature-map Group
首先借鉴了ResNeXt网络的思 想,提出了一个超参数——cardinality基数K,将特征在通道方向上分成K个组(尺寸不变),每一个group叫做cardinal group;在论文中又提出了一个新的超参数——radix R,即在一份cardinal group中分成R个splits。那么特征图总组数为G=KR,对每一个组都用相同的变换{F1,F2,…,F3},于是就得到了每个组的intermediate representation Ui=Fi(X), for i ϵ {1,2,…,G}。
在这里插入图片描述
Split Attention in Cardinal Groups
在这里插入图片描述
在具体的一个cardinal group中的实现如上图所示,即上图中每一个cardinal group里面最底下的split attention block的内部图就是右图的样子。右图input有r个即r个splits。

(1)先对每个splits经过transformation之后得到的intermediate representation进行element-wise累加。比如,对第k个cardinal group来说,累加公式为:
U ^ k = Σ j = R ( k − 1 ) + 1 R k U j \widehat{U}^k=\Sigma_{j=R(k-1)+1}^{Rk}U_j U k=Σj=R(k1)+1RkUj其中H,W,C是ResNeSt block之前input feature的维度。

(2)全局的上下文信息可以用全局平均池化在不同的空间维度间收集起来,第c个component(c∈{1,2,…,C/K})的计算方式:
s c k = 1 H × W ∑ i = 1 H ∑ j = 1 W U ^ c k ( i , j ) s_c^k=\frac{1}{H×W}\sum_{i=1}^H\sum_{j=1}^W\widehat{U}_c^k(i,j) sck=H×W1i=1Hj=1WU ck(i,j)
s k ∈ R c / k s^k\in\mathbb{R}^{c/k} skRc/k就是将每个channel单独拿出来,就是一个H×W的矩形,对这个矩形所有元素进行求和取平均,就得到 s c k s_c^k sck,而整个的 s k s^k sk是一个维度为 R c / k \mathbb{R}^{c/k} Rc/k的列向量这个 s k s^k sk相当于是一个channel-wise attention的作用,它每一列上的数字,就对应着这个channel上的特征图的重要程度,后面还有一个softmax。

(3)最终,当前cardinal group里面的每一个splits都会按照一定的权重加起来,输出的特征图 V k ∈ R H × W × C / K V_k\in\mathbb{R}^{H×W×C/K} VkRH×W×C/K就是当前cardinal group的特征图。对于 V k V^k Vk中第c个channel的计算,有
V c k = Σ i = 1 R a i k ( c ) U R ( k − 1 ) + i V_c^k=\Sigma_{i=1}^Ra_i^k(c)U_{R(k-1)+i} Vck=Σi=1Raik(c)UR(k1)+i其中 a i k ( c ) a_i^k(c) aik(c)是soft assignment weight(软分配权重),当分叉split数R为1就用sigmoid,分叉数>1就用softmax
在这里插入图片描述
mapping g i c \mathscr{g}_i^c gic是基于全局上下文表示 s k s^k sk来决定每一个split的第c个channel的权重。

ResNeSt Block
最后回到图1的ResNeSt block,经过Split-Attention Block之后得到的输出 V k V^k Vk会被简单的concat起来:V=Concat{V1,V2,…,VK},经过1×1卷积改变通道数,最后再加上ResNet经典的跳远连接,最终的输出为Y=V+X。

Relation to Existing Attention Methods
利用全局上下文来预测channel-wise attention factors是首次在SENet中提出来的。文章与SENet的Squeeze-and-Excitation不同的是:ResNeSt是对每一个cardinal group来进行的,而SENet是在整个block上进行的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
本课程适合具有一定深度学习基础,希望发展为深度学习之计算机视觉方向的算法工程师和研发人员的同学们。基于深度学习的计算机视觉是目前人工智能最活跃的领域,应用非常广泛,如人脸识别和无人驾驶中的机器视觉等。该领域的发展日新月异,网络模型和算法层出不穷。如何快速入门并达到可以从事研发的高度对新手和中级水平的学生而言面临不少的挑战。精心准备的本课程希望帮助大家尽快掌握基于深度学习的计算机视觉的基本原理、核心算法和当前的领先技术,从而有望成为深度学习之计算机视觉方向的算法工程师和研发人员。本课程系统全面地讲述基于深度学习的计算机视觉技术的原理并进行项目实践。课程涵盖计算机视觉的七大任务,包括图像分类、目标检测、图像分割(语义分割、实例分割、全景分割)、人脸识别、图像描述、图像检索、图像生成(利用生成对抗网络)。本课程注重原理和实践相结合,逐篇深入解读经典和前沿论文70余篇,图文并茂破译算法难点, 使用思维导图梳理技术要点。项目实践使用Keras框架(后端为Tensorflow),学员可快速上手。通过本课程的学习,学员可把握基于深度学习的计算机视觉的技术发展脉络,掌握相关技术原理和算法,有助于开展该领域的研究与开发实战工作。另外,深度学习之计算机视觉方向的知识结构及学习建议请参见本人CSDN博客。本课程提供课程资料的课件PPT(pdf格式)和项目实践代码,方便学员学习和复习。本课程分为上下两部分,其中上部包含课程的前五章(课程介绍、深度学习基础、图像分类、目标检测、图像分割),下部包含课程的后四章(人脸识别、图像描述、图像检索、图像生成)。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值