GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

Abstract

通过将特定于查询的全局上下文聚合到每个查询位置,Non-local Networks(NLNet)提出了一种捕获远程依赖关系的开创性方法。但是,通过严格的经验分析,我们发现,对于图像中的不同查询位置,由Non-local Networks建模的全局上下文几乎相同。在本文中,我们利用这一发现创建了一个基于查询无关公式的简化网络,该公式可保持NLNet的准确性,但计算量却大大减少。我们进一步观察到,这种简化的设计与挤压激励网络(SENet)具有相似的结构。因此,我们将它们统一为用于全局上下文建模的三步通用框架。在通用框架内,我们设计了一个更好的实例化,称为全局上下文(GC)块,它是轻量级的,可以有效地对全局上下文进行建模。轻量级的属性使我们可以将其应用于骨干网中的多个层以构建全局上下文网络(GCNet),在各种识别任务的主要基准上,它通常都优于简化的NLNet和SENet。代码和配置在https://github.com/xvjiarui/GCNet上发布。

Introduction

事实证明,捕获长期依赖关系旨在提取对视觉场景的全局理解,这将有益于广泛的识别任务,例如图像/视频分类,对象检测和分割[31、12、38、14]。在卷积神经网络中,由于卷积层在局部邻域中建立像素关系,因此长距离依赖关系主要通过深度堆叠的卷积层来建模。然而,直接重复的卷积层在计算上效率低下并且难以优化[31]。这将导致对远程依赖关系的建模无效,部分原因是在遥远的位置之间传递消息很困难。
==为了解决这个问题,提出了NLNet[31]通过自我关注机制[28]使用一层对远程依赖关系进行建模。==对于每个查询位置,NLNet首先计算查询位置与所有位置之间的成对关系以形成注意图,然后通过加权总和与注意图定义的权重来聚合所有位置的特征。最后,将聚合的要素添加到每个查询位置的要素中以形成输出。
NLNet中查询特定的注意权重通常暗示相应位置对查询位置的重要性。虽然可视化查询特定的重要性权重将有助于深入了解,但是在原始论文中却缺少这种分析。我们弥合了这种遗憾,如图1所示,但令人惊讶地观察到,不同查询位置的注意力图几乎相同,表明仅学习了与查询无关的依赖关系。表1中的统计分析进一步证实了这一观察结果,即不同查询位置的注意力图之间的距离非常小。
图1
表1

基于此观察,我们通过针对所有查询位置显式使用与查询无关的注意力图来简化non-local block。然后,我们使用此注意力图将相同的聚合特征添加到所有查询位置的特征中,以形成输出。与non-local block相比,此简化的块具有显着较小的计算成本,但是在几个重要的视觉识别任务上,观察到的精度几乎没有降低。此外,我们发现这种简化的块与流行的挤压激励(SE)网络[14]具有相似的结构。它们都通过从所有位置聚集的相同特征来增强原始特征,但是通过在聚集策略,转换和增强功能方面的选择来区分彼此。通过抽象这些功能,我们得到了一个由三步组成的通用框架,该框架将简化的NL块和SE块统一起来:(a)上下文建模模块,它将所有位置的特征聚合在一起以形成全局上下文特征; (b)特征转换模块,以捕获各个通道之间的相互依赖性; (c)融合模块,用于将全局上下文特征合并到所有位置的特征中。
简化的NL块和SE块是此通用框架的两个实例,但是三个步骤的实现方式不同。通过对每个步骤的比较研究,我们发现简化的NL块和SE块均不是最优的,每个块的一部分步骤都向前推进。通过将每个步骤的最佳实现组合起来,我们得到了通用框架的新实例,称为全局上下文(GC)块。新块在上下文建模(使用全局注意池化)和融合(使用加法)步骤上与简化的NL块共享相同的实现,而与SE块共享相同的转换步骤(使用两层瓶颈)。在多个视觉识别任务上,GC块的性能优于简化的NL块和SE块。
与SE块一样,建议的GC块也很轻巧,这使其可以应用于ResNet架构中的所有residual块,而原始的NL块则由于计算量大而通常在一层或几层之后应用。 GC块增强网络被称为全局上下文网络(GCNet)。在COCO对象检测/分段方面,GCNet在APbox上的性能分别优于NLNet和SENet的1.9%和1.7%,在APmask上的性能分别达到1.5%和1.5%,而FLOP的相对增加仅为0.07%。此外,GCNet在三项常规视觉识别任务上也获得了显着的性能提升:COCO上的对象检测/分段(APbbox上为2.7%↑​​,APmask上的Rmasking R-CNN为2.4%↑,以FPN和ResNet-50为骨干[9]) ,在ImageNet上进行图像分类(在ResNet-50上,其top-1精度为0.8%↑[10])和在动力学上的动作识别(在ResNet-50慢速基准上,其top-1精度为1.1%↑[6]) ,而计算成本的增长幅度不到0.26%。

Related Work

Deep architectures
由于卷积网络最近在大规模的视觉识别任务中取得了巨大的成功,因此人们进行了许多尝试来改进原始体系结构,以期获得更好的准确性[18,26,27,10,37,15,34, 14、43、13、40、11、4、42、19、2、24、31、35、6]。网络设计的一个重要方向是改进基本组件的功能公式,以增强深度网络的功能。 ResNeXt [34]和Xception [3]采用群组卷积来增加基数。可变形卷积网络[4,42]设计可变形卷积以增强几何建模能力。 SqueezeExcitation Networks [14]采用逐通道重定标度来显式地模拟通道依存关系。
我们的全局上下文网络是一个新的主干架构,具有新颖的GC块,可以实现更有效的全局上下文建模,从而在各种视觉任务(例如对象检测,实例分割,图像分类和动作识别)上提供卓越的性能。
Long-range dependency modeling
远程依赖关系建模的最新方法可以分为两类。首先是采用自我注意机制来建立两两关系的模型。第二个是对独立于查询的全局上下文进行建模
自注意力机制最近已成功应用于各种任务中,例如机器翻译[7、8、28],图形嵌入[29],生成建模[39]和视觉识别[30、12、31、36]。 [28]是应用自注意力机制对机器翻译中的远程依存关系进行建模的首批尝试之一。 [12]扩展了自我注意机制,以在对象检测中对对象之间的关系进行建模。 NLNet [31]采用自我关注机制来对像素级成对关系进行建模。 CCNet [16]通过堆叠两个纵横交错的块来加速NLNet,并应用于语义分割。但是,NLNet实际上为每个查询位置学习与查询无关的注意力图,这在建模像素级成对关系时浪费了计算成本。
为了对全局上下文特征建模,SENet [14],GENet [13]和PSANet [41]对不同的通道执行了重新缩放,以重新校准具有全局上下文的通道依赖性。 CBAM [32]通过重新缩放来重新校准不同空间位置和通道的重要性。但是,所有这些方法都采用重新缩放来进行特征融合,这对于全局上下文建模还不够有效。
所提出的GCNet可以通过加法融合有效地对NLNet(重量重且难以集成到多个层)和轻量级的SENet(采用缩放功能,并且不足以对其进行有效处理)进行全局上下文建模。因此,在各种识别任务的主要基准上,通过更有效的全局上下文建模,GCNet可以实现比NLNet和SENet更好的性能。

Analysis on Non-local Networks

在本节中,我们首先回顾NL块的设计[31]。为了提供直观的理解,我们将注意力集中在跨NL块的实例化生成的不同查询位置上的注意力图。为了统计分析其行为,我们对所有查询位置的注意图之间的距离(余弦距离和Jensen-Shannon散度)求平均。

Revisiting the Non-local Block

==基本的NL块[31]旨在通过聚合来自其他位置的信息来增强查询位置的功能。==我们将x={xi}i=1^Np表示为一个输入实例(例如,图像或视频)的特征图,其中Np是特征图中的位置数(例如,图像的Np = H·W,Np = H ·W·T(视频)。 x和z分别表示具有相同尺寸的NL块的输入和输出。然后可以将NL块表示为
公式1
其中,i是查询位置的索引,而j枚举所有可能的位置。 f(xi,xj)表示位置i和j之间的关系,并且具有归一化因子C(x)。 Wz和Wv表示线性变换矩阵(例如1x1卷积)。为了简化,我们将ωij=f(xi,xj)/C(x)表示为位置i和j之间的归一化成对关系。
为了满足实际应用中的各种需求,设计了具有不同ωij的NL块的四个实例,即Gaussian,Embedded Gaussian,Dot product和Concat:(a)Gaussian表示ωij中的f是高斯函数,定义为Gaussian
(b)Embedded Gaussian是Gaussian的简单扩展,它在嵌入空间中计算相似度,定义为Embedded Gaussian
(c)对于Dot product,ωij中的f定义为点积相似度,公式为Dot product
(d)Concat从字面上定义为
公式4
图3(a)说明了使用最广泛的实例化Embedded Gaussian。
图3
图3:NL块(Embedded Gaussian)的体系结构及其简化版本。特征地图按其维度显示,例如CxHxW。⊗是矩阵乘法,⊕是广播元素加法。对于具有不同维度的两个矩阵,广播操作首先广播每个维度中的特征以匹配两个矩阵的维度。
NL块可以被视为全局上下文建模块,其将查询特定的全局上下文特征(通过查询特定的关注图从所有位置加权平均)聚集到每个查询位置。当为每个查询位置计算关注图时,NL块的时间和空间复杂度都与位置Np的数量成平方关系。

Analysis

Visualization
为了直观地理解NL块的行为,我们首先将不同查询位置的注意图可视化。由于不同的实例化实现了类似的性能[31],这里我们只可视化最广泛使用的版本,嵌入式高斯(Embedded Gaussian),它与[28]中提出的块具有相同的公式。由于视频中的注意力图很难可视化和理解,所以我们只在对象检测/分割任务中显示可视化,该任务以图像为输入。遵循NLNet目标检测的标准设置[31],我们用FPN和Res50在Mask R-CNN上进行了实验,并且只在Res4的最后一个剩余块之前添加了一个NL块。
在图2中,我们从COCO数据集中随机选择6个图像,并为每个图像可视化三个不同的查询位置(红点)及其特定于查询的关注图(热点图)。我们惊讶地发现,对于不同的查询位置,他们的注意图几乎是一样的。为了在统计上验证这一观察结果,我们分析了不同查询位置的全局上下文之间的距离。
Statistical Analysis
Statistical Analysis假设Vi是特征图上位置i的特征向量,平均距离度量定义为
在这里插入图片描述
Cosine distance
余弦距离是一种广泛使用的距离度量,定义为dist(vi,vj)=(1−cos(vi,vj))/2。这里我们计算三种向量之间的余弦距离,NL块输入(vi=xi,表1中的输入),融合前的NL输出(vi=zi-xi,表1中的输出),以及查询位置的注意图(vi=ωi,表1中的‘att’)。采用Jensen-Shannon散度(JSD)来度量两个概率分布之间的统计距离,如在这里插入图片描述
由于每个注意力图ωi的总和为1(在Gaussian和E-Gaussian中),我们可以将每个ωi视为离散的概率分布。因此,我们计算了Gaussian和E-Gaussian的注意图(vi=ωi)之间的JSD。表1显示了两个标准任务的两个距离度量的结果。首先,“输入”列中的大余弦距离值表明,可以在不同位置区分NL块的输入特征。但是,输出中的余弦距离值很小,这表明NL块建模的全局上下文特征对于不同的查询位置几乎是相同的。注意图上的两个距离度量(‘att’)对于所有实例也都非常小,这再次验证了可视化的观察结果。换言之,虽然NL块打算计算特定于每个查询位置的全局上下文,但训练后的全局上下文实际上与查询位置无关。因此,不需要为每个查询位置计算特定于查询的全局上下文,从而允许我们简化非本地块。

Methos
Simplifying the Non-local Block

由于不同的实例化在Coco和Kinetics上实现了类似的性能,如表1所示,这里我们采用使用最广泛的版本Embedded Gaussian作为基本的NL块。基于不同查询位置的注意图几乎相同的观察结果,我们通过计算全局(独立于查询的)注意图并共享所有查询位置的全局注意图来简化NL块。根据[12]中的结果,使用和不使用Wz的变体具有相当的性能,我们在简化版本中省略了Wz。我们简化的NL块定义为
公式2
其中Wk和Wv表示线性变换矩阵。该简化的NL块如图3(B)所示。
为了进一步降低这一简化块的计算成本,我们将分布式技术应用于注意力池之外的移动,例如
公式3
该版本的简化NL块如图4(B)所示。1x1卷积Wv的FLOPS是从O(HWC^2) 降低到O(C^2)。
与传统的NL块不同,公式3中的第二项独立于查询位置i,这意味着该项在所有查询位置i之间是共享的,因此我们直接将全局上下文建模为所有位置特征的加权平均,并将全局上下文特征聚合(添加)到每个查询位置的特征。在实验中,我们直接用简化的NL(SNL)块替换NL块,并对COCO上的目标检测、ImageNet分类和动作识别这三个任务的准确率和计算代价进行了评估,如表2(A)、4(A)和5所示。正如我们预期的那样,SNL块的性能与NL块相当,而FLOPS要低得多。

公式4
图4:主要模块的体系结构。特征地图显示为特征维度,例如CxHxW表示具有通道数C、高度H和宽度W的特征地图。⊗表示矩阵乘法,⊕表示广播元素加法,以及?表示广播元素相乘。

Global Context Modeling Framework

如图4(B)所示,简化的NL块可以抽象为三个过程:(A)全局注意力汇集,采用1x1卷积Wk和Softmax函数获得关注权重,然后执行注意力汇集以获得全局上下文特征;(B)通过1x1卷积WV进行特征变换;©特征聚合,使用加法将全局上下文特征聚合到每个位置的特征
我们将此抽象视为全局上下文建模框架,如图4(A)所示,定义如下
公式4
(a)Sumj(αjxj)表示上下文建模模块,该模块通过加权平均和权重αj将所有位置的特征分组在一起,以获得全局上下文特征(简化的NL(SNL)块中的全局注意力集中); (b)δ(·)表示特征变换,以捕获通道相关性(SNL块中为1x1 conv); (c)F(·,·)表示将全局上下文特征聚合到每个位置的特征的融合函数(SNL块中按广播元素逐个添加)。
有趣的是,在[14]中提出的挤压激励(SE)块也是我们提出的框架的实例。如图4(c)所示,它包括:(a)用于全局上下文建模的全局平均池(在等式4中设置αj= 1/ Np),在SE块中称为挤压操作; (b)瓶颈变换模块(等式4中的δ(·)是一个1x1卷积,一个ReLU,一个1x1卷积和一个Sigmoid函数),以计算每个通道的重要性,称为SE中的激励运算块; (c)用于融合的重缩放函数(等式4中的F(·,·)是元素方式的乘法),以重新校准通道方式的特征。与NL块不同,此SE块非常轻巧,允许将其应用于所有层,而仅增加一点计算成本。

Global Context Block

在这里,我们提出了一种新的全局上下文建模框架实例,称为全局上下文(GC)块,它具有对远程依赖项进行有效建模的简化非本地(SNL)块和挤压激励( SE)块,具有轻量级计算功能。
在SNL块中,如图4(b)所示,变换模块具有最大数量的参数,包括一个带有C·C参数的1x1卷积。当我们将此SNL块添加到更高层时,例如res5,此1x1卷积的参数数量,C·C = 2048·2048,决定了该块的参数数量。为了获得SE块的轻量级特性,此1x1卷积被瓶颈转换模块代替,该模块将参数数量从C·C减少到2·C·C / r,其中r是瓶颈比率,C / r表示瓶颈的隐藏表示维。通过将默认缩小率设置为r = 16,可以将转换模块的参数数量减少到原始SNL块的1/8。表2(e)中显示了关于不同瓶颈比率r的更多结果。
随着两层瓶颈变换的增加,随着两层瓶颈变换的增加,优化变得困难,我们在瓶颈变换内部(在ReLU之前)添加了层归一化,以简化优化并充当正则化器。可以使一般化受益。如表2(d)所示,层归一化可以显着增强COCO上的对象检测和实例分割。
全局上下文(GC)块的详细架构如图4(d)所示,表示为
公式5
其中αj= e^(Wkxj) / SUmm(e^Wkxm)是全局注意力池化的权重,而δ(·)= Wv2ReLU(LN(Wv1(·)))表示瓶颈变换。具体来说,我们的GC块包括:(a)用于上下文建模的全局注意力集中; (b)瓶颈转换以捕获通道方面的依赖关系; (c)广播逐元素添加以进行特征融合。
由于GC块是轻量级的,因此可以在多层中应用,以在不增加计算成本的情况下更好地捕获远程依赖关系。以ResNet-50用于ImageNet分类为例,GC-ResNet-50表示以16的瓶颈比率将GC块添加到ResNet-50的所有层(c3 + c4 + c5)中。GCResNet-50增加了ResNet-50的计算。从〜3.86 GFLOPs到〜3.87 GFLOPs,相对增加了0.26%。此外,GC-ResNet-50在ResNet-50所需的〜25.56M参数之外引入了〜2.52M的附加参数,相当于增加了〜9.86%。
全局上下文可以使各种各样的视觉识别任务受益,并且GC块的灵活性使其可以插入各种计算机视觉问题中使用的网络体系结构中。在本文中,我们将GC块应用于三个常规视觉任务-图像识别,对象检测/细分和动作识别-并观察到这三个方面都有显着改进。
Relationship to non-local block
由于NL块实际上是学习独立于查询的全局上下文,因此我们的全局上下文块的全局注意力池化对与NL块相同的全局上下文进行建模,但是计算成本大大降低。随着GC块采用瓶颈变换来减少全局上下文功能中的冗余,参数和FLOP的数量将进一步减少。 GC块的FLOP和参数数量显着低于NL块,从而使我们的GC块可以应用于多层,而计算量略有增加,同时可以更好地捕获远程依赖性并帮助进行网络训练。
Relationship to squeeze-excitation block
SE块和我们的GC块之间的主要区别是融合模块,它反映了两个块的不同目标。 SE模块采用重新缩放来重新校准通道的重要性,但是对远程依赖关系建模不足。我们的GC块紧随NL块,通过利用加法将所有位置的全局全局上下文聚合起来以捕获长期依赖关系。第二个差异是瓶颈转换中的层归一化。由于我们的GC块采用加法进行融合,因此层归一化可以简化针对瓶颈转换的两层体系结构的优化,从而可以提高性能。第三,SE块中的全局平均池化是GC块中全局平均池化的一种特例。表2(f)和4(b)中的结果表明,与SENet相比,我们的GCNet具有优越性。

Experiments

为了评估所提出的方法,我们在三个基本任务上进行了实验,即在COCO [21]上进行对象检测/分割,在ImageNet [5]上进行图像分类,以及在Kinetics [17]上进行动作识别。实验结果表明,提出的GCNet通常优于非本地网络(具有较低的FLOP)和挤压激励网络(具有可比较的FLOP)。

Object Detection/Segmentation on COCO

我们研究了在COCO 2017 [21]上的对象检测和实例分割模型,该模型的训练集由118k图像,5k图像的验证集和20k图像的测试开发集组成。我们遵循标准设置[9],分别通过在不同盒子和 mask IoUs处的标准平均平均得分来评估对象检测和实例分割。
Setup
我们的实验是通过PyTorch [23]实现的。除非另有说明,否则比率r = 16的GC块将应用于ResNet / ResNeXt的阶段c3,c4,c5。
Training
我们使用FPN和ResNet / ResNeXt作为主干架构的Mask R-CNN [9]的标准配置。调整输入图像的大小,使其较短的边为800像素[20]。我们在8个GPU上进行了训练,每个GPU上有2张图像(有效的最小批处理大小为16)。所有模型的主干都在ImageNet分类中进行了预训练[5],然后除c1和c2之外的所有其他层均与检测和分割头共同进行了微调。与[9]中有关RPN的分阶段训练不同,我们在实施中采用了像[25]中那样的端到端训练,从而产生了更好的结果。与传统的微调设置[9]不同,我们使用同步BatchNorm代替冻结的BatchNorm。使用同步SGD对所有模型进行12个时期的训练,权重衰减为0.0001,动量为0.9,这大致相当于Mask R-CNN基准测试中的1倍进度[22]。学习率被初始化为0.02,并在第9和第11个时代衰减10倍。超参数的选择也遵循最新版的Mask R-CNN基准[22]。
表2

Ablation Study

消融研究在COCO 2017验证集上完成。报告了bounding boxes和segmentation mask的标准COCO度量标准,包括AP,AP50,AP75。
Block design
[31]之后,我们在c4的最后一个残差块之前插入1个非本地块(NL),1个简化的非本地块(SNL)或1个全局上下文块(GC)。表2(a)显示SNL和GC均具有与NL相当的性能,参数更少,计算量更少,表明原始非本地设计中计算和参数上的冗余。此外,在所有剩余块中添加GC块可获得更高的性能(APbbox上为1.1%↑,APmask上为0.9%↑),并且FLOP和#params略有增加。
Positions
NL块插入到残差块之后(afterAdd),而SE块在残差块内最后一个1x1 conv之后(after1x1)被集成。在表2(b)中,我们调查了两种具有GC阻滞的情况,并且它们产生了相似的结果。因此,我们采用after1x1作为默认值。
Stages
表2(c)显示了在不同阶段集成GC块的结果。所有阶段都受益于GC块中的全局上下文建模(在APbbox和APmask上为0.7%-1.7%↑)。插入c4和c5均比插入c3取得更好的性能,这表明更好的语义功能可以从全局上下文建模中受益更多。随着FLOP的略微增加,将GC块插入所有层(c3 + c4 + c5)所产生的性能比仅插入单个层还要高。
Bottleneck design
表2(d)中显示了瓶颈变换中每个分量的影响。 w / o比表示使用一个1x1转换作为转换的简化NLNet,与基线相比,它具有更多的参数。尽管r16和r16 + ReLU的参数比w / o ratio变量少得多,但发现两层比单层更难以优化并导致较差的性能。因此,利用LayerNorm(LN)简化了优化过程,从而获得了与w / o比相似的性能,但#params却少得多。
Bottleneck ratio
瓶颈设计旨在减少参数冗余,并在性能和#params之间进行权衡。在表2(e)中,我们更改了瓶颈比率r。随着比率r随着参数和FLOP数量的增加而减小(从32变为4),性能将持续提高(APbbox上为0.8%↑,APmask上为0.5%↑),这表明我们的瓶颈在性能和参数之间取得了良好的平衡。值得一提的是,即使比率为r = 32,网络也仍然以较大的幅度优于基线。
Pooling and fusion
表2(f)消除了合并和融合的不同选择。首先,它表明在融合阶段添加比缩放更有效。令人惊讶的是,注意力集中仅比香草平均集中获得更好的结果。这表明,如何将全局上下文聚合到查询位置(融合模块的选择)比将所有位置的要素组合到一起(上下文建模模块中的选择)更为重要。值得注意的是,我们的GCNet(att + add)明显优于SENet,这是因为有效的远程依赖关系建模具有用于上下文建模的注意池,以及用于功能聚集的附加功能。

Experimetns on Stronger Backbones

通过用ResNet-101和ResNeXt-101替换ResNet-50 [34],将可变形卷积添加到多层(c3 + c4 + c5)[4,42]中,并采用级联策略[1],我们对更强大的主干网上的GCNet进行了评估。报告了我们的GCNet的结果,其中瓶颈块比率为4和16的所有层(c3 + c4 + c5)中都集成了GC块。表3(a)列出了有关验证集的详细结果。值得注意的是,即使采用更强大的主干,与基线相比,GCNet的收益仍然显著,这表明我们的具有全局上下文建模的GC块是对当前模型能力的补充。对于最强大的主干,在ResNeXt101中具有可变形卷积和级联RCNN,我们的GC块仍然可以将性能提高0.8%↑(在APbbox上)和0.5%↑(在APmask上)。为了进一步评估我们提出的方法,还报告了测试开发集上的结果,如表3(b)所示。在测试开发中,通过添加GC块还可以通过大幅增加固定基准,这与验证集的结果一致。这些结果证明了我们提出的方法的鲁棒性。

Image Classification on ImageNet

ImageNet [5]是用于图像分类的基准数据集,包含来自128个类别的128万个训练图像和50K验证图像。我们按照[10]中的标准设置在训练集上训练深层网络,并报告验证集上的单行top-1和top-5错误。我们的预处理和扩充策略遵循[33]和[14]中提出的基准。为了加快实验速度,所有报告的结果均经过两个阶段的训练。我们首先在8个GPU上训练120个周期的标准ResNet-50,每个GPU上有64个图像(有效批大小为512个),线性预热为5个周期。其次,我们将新设计的块插入到第一阶段训练的模型中,并以0.02的初始学习率对其他40个时期进行微调。基线也遵循这两个阶段的训练,但是在第二阶段不添加新的块。余弦学习速率衰减用于训练和微调。
Block Design
与在COCO上进行块设计一样,表4(a)中报告了不同块的结果。 GC块的性能比NL和SNL块略好,但参数更少,计算量更少,这表明我们设计的多功能性和通用性。通过在所有剩余块(c3 + c4 + c5)中插入GC块,性能得到了进一步的提高(与基线相比,top-1精度提高了0.82%↑),而计算的开销却很小(FLOP相对增加了0.26%)。
Pooling and fusion
还对图像分类研究了不同合并和融合方法的功能。将表4(b)与表2(f)进行比较,可以看出注意力集中在图像分类中的作用更大,这可能是[14]中缺少的成分之一。同样,在几乎相同的#params和FLOP情况下,注意力集中(GCNet)与顶级平均合并(SENet)相比在前1位准确度方面的表现要好0.44%。

Action Recognition on Kinetics(动力学动作识别)

对于人类动作识别,我们采用了广泛使用的动力学[17]数据集,该数据集包含约240k训练视频和20k验证视频,涉及400种人类动作类别。所有模型都在训练集上进行训练,并在验证集上进行测试。根据[31],我们报告了top-1和top-5识别的准确性。我们在[6]中采用仅慢速基线,这是迄今为止最好的单一模型,可以利用ImageNet预训练模型中的权重[2]进行加权。与从头开始训练相比,这种扩张的3D策略[31]大大加快了收敛速度。所有实验设置都明确遵循[6];仅慢速基线以8帧(8×8)作为输入进行训练,并采用了multi(30)-clip验证。
消融研究结果记录在表5中。对于动力学实验,GC块的比例设置为4。首先,当用简化的NL块和GC块替换NL块时,性能可以认为是同等的(0.19 top-1精度为%↓和0.11%↓,top-5精度为0.15%↑和0.14%↑)。与在COCO和ImageNet中一样,添加更多的GC块可以进一步改善结果,并以更少的计算量胜过NL块。
在这里插入图片描述

Conclusion

远程依赖关系建模(NLNet)的开创性工作旨在为特定于查询的全局上下文建模,但仅对独立于查询的上下文建模。基于此,我们简化了NLNet,并将此简化版本抽象为全局上下文建模框架。然后,我们提出了该框架的一种新颖的实例,即GC块,它很轻巧,可以有效地建模远程依赖关系。我们的GCNet是通过将GC块应用于多层来构造的,在各种识别任务的主要基准上,它们通常优于简化的NLNet和SENet。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值