Tied Block Convolution: Leaner and Better CNNs with Shared Thinner Filters(论文翻译)

摘要

卷积是卷积神经网络(CNN)的主要组成部分。我们观察到,随着通道数随深度的增加,优化的CNN通常具有高度相关的滤波器,从而降低了特征表达能力。我们提出了捆绑块卷积(TBC),它在相同大小的通道块上共享相同的更加thin的滤波器,并用一个滤波器产生多个响应。TBC的概念还可以扩展到分组卷积和全连接层,并可以应用于各种骨干网络和注意力模块。

我们在分类、检测、实例分割和注意力方面的广泛实验表明,TBC比标准卷积和分组卷积有显著的全面的提升。我们提出的TiedSE注意模块甚至可以使用比SE模块少64倍的参数来实现类似的性能。特别地,在存在遮挡的情况下,标准的CNN往往不能准确地聚集信息,从而导致多个冗余的部分目标提议。通过跨通道共享滤波器,TBC降低了相关性,并且可以有效地处理高度重叠的实例。在遮挡率为80%的情况下,TBC将MS-COCO上目标检测的平均精度提高了6%。我们的代码将会发布。

介绍

卷积是卷积神经网络(CNN)的主要组成部分,在图像分类,目标检测、图像分割和姿态识别上获得了广泛的成功。然而,标准卷积在计算、存储和存储访问方面仍然很昂贵。更重要的是,优化后的CNN通常会开发出高度相关的滤波器。

在标准卷积(SC)中,我们可以利用导向反向传播模式在一组ImageNet图像上的余弦相似度平均值来评估成对滤波器的相似性。图1显示,随着地层深度的增加,滤波器的相关性也会增加。也就是说,随着层数的增加,滤波器变得更加相似,从而降低了特征表征能力。
在这里插入图片描述
图1:(a)从VGG16的第2层到第12层随机选择的64个滤波器的相关矩阵。在用于ImageNet分类的VGG16的深度层 d d d,我们基于两个滤波器的引导反向传播模式来计算它们之间的相似度在一组图像上进行平均。随着层的加深,找到一组彼此相似度较高的滤波器变得越来越容易。(B)VGG16各层成对滤波相似性的归一化直方图。随着通道数量随着深度从64增加到128到256,曲线向右移动并变得更窄,即,更多的过滤器变得相似。受此激励,能否通过重用相似滤波器消除卷积层的冗余?

一些论文研究了如何优化一个冗余较少的CNN结构,通常通过探索跨空间和通道维度的依赖性。在SC中,虽然每个滤波器在空间上具有有限的大小,但它可以扩展到输入特征的完整集合,而在组卷积(GC)中,滤波器只与输入特征的子集卷积。因此,如果有 B B B组输入特征,每个GC层通过将每个过滤器的大小减少B倍来将参数数量减少B倍。深度卷积(DW)是GC的极端情况,其中每个组仅包含一个通道,从而最大限度地减少参数数量。
在这里插入图片描述
图2:卷积运算。为了生成两个activation map(activation map 是一个filter滑动卷积后得到的一层输出(depth 维度上的一层slice), 多个filter得到的activation map 在 depth 维度上拼起来称作 feature map)。标准卷积需要两个全尺寸滤波器,而组卷积需要两个半尺寸滤波器,然而,我们的组合块卷积卷积只需要一个半尺寸滤波器,也就是说参数被减少了4倍。TBC的思想也可以应用于全连接和分组卷积层。

虽然GC和DW在减小模型大小方面很有效,但它们不会研究滤波器之间的相关性,并且它们的孤立表示无法捕获跨通道关系。不像GC和DW中通过减小每个过滤器的大小来消除冗余,通过探索每个滤波器的潜力,我们探索了消除冗余的另一种方法。已知直接减少过滤器的数量会降低模型容量(指神经网络模型能拟合复杂函数的能力)。然而,由于标准的卷积滤波器变得相似(如图1),我们可以通过在不同特征组重用它们来减少滤波器的有效数量。于是我们提出了一种简单的替代方法,称为捆绑块卷积(TBC):我们将C个输入特征通道分割成B个相等的组合块,并使用仅在 C / B C/B C/B通道上定义的单个块滤波器来产生B响应。图2显示了Standard Convolution滤波器跨越整个C通道,然而在B = 2时,我们的TBC只跨越 C / 2 C/2 C/2个通道,但它也产生了2个滤波器响应。TBC只是组之间共享的Group Convolution,当 B = 1 B=1 B=1时,TBC被简化为SC。将这一概念推广到全连接层和组卷积层,可以直接得到捆绑块组卷积(TGC)和捆绑块全连通层(TFC)。

我们的TBC更有效地利用每个过滤器、存储访问和样本。

  • B = 2 B=2 B=2时,TBC使用一个半尺寸的thin filter的到了相同数量的响应,在模型减少4倍的条件下,产生了标准卷积相同尺寸的输出。
  • 由于对B个组合块都应用了相同的thin filter,因此TBC通过利用GPU并行处理具有更高效的存储访问。
  • 由于每个thin filter都在B倍以上的样本上进行训练,因此学习也变得更有效。
  • 由于每组TBC滤波器应用于所有输入通道,TBC可以跨通道聚合全局信息,并更好地对跨通道依赖关系进行建模。

虽然TBC在理论上似乎是一个有吸引力的概念,但我们能否在实践中证明其相对于标准卷积或组卷积的优势,将关键取决于神经网络结构。我们能否在实践中证明其相对于SC或GC的优势,将关键取决于神经网络结构。我们将TBC/TGC/TFC应用于各种骨干网络,包括ResNet、ResNeXt,SENet和ResNeST,并提出了它们的Tied版本:TiedResNet、TiedResNeXt、TiedSENet和TiedResNeST。在分类、检测、分割和注意力机制方面进行了广泛的实验,结果表明,与标准卷积、分组卷积和全连接层相比,TBC/TGC/TFC的整体性能有显著提高。例如,图6显示TiedResNet在更精简的模型下始终以大幅度的优于ResNet,ResNeXt和HRNetV2(Wang等人,2019)。在多个不同框架、任务和数据集中也获得了类似的性能提升和模型压缩。

最后,学习到的滤波器冗余不仅降低了拟合复杂函数的能力,而且也会使CNN无法捕获多样性,从而导致性能降低。在MS-COCO上进行目标检测时,标准的CNN往往不能准确定位目标区域,也不能从前景中聚合有用的信息。因此,存在多个重叠的部分对象提议,从而阻止从提案池中出现单个完整对象提议。TiedResNet可以更好地处理高重叠实例,当遮挡比为 0.8 0.8% 0.8时,平均精确度(AP)提高 6 6% 6,IOU=0.75时平均精确度(AP)提高 8.3 8.3% 8.3

相关工作

主干网络:AlexNet (Krizhevsky,Sutskever和Hinton 2012)是CNN在ILSVRC竞赛中第一个获得显著准确性的成功实例。然而,较大的卷积核和完全连接层大大增加了模型的大小。对于较小卷积核网络,如GoogLeNet,VGGNet只需要少12倍的参数就能超越(Krizhevsky,Sutskever和Hinton 2012;Zeiler and Fergus 2014)。但是,较深的网络会出现梯度消失等问题,随后可通过ResNet中的残差连接去解决。所以模型的深度不再是问题,研究人员已开始探索如何更有效地使用参数。在模型复杂度相当的情况下,ResNeXt在许多主要任务上性能优于ResNet,主要是因为使用了更加高效的分组卷积。通过精心的架构设计,HRNetV2在多项主要任务上实现了优越的性能。与使用分组卷积或标准卷积的这些工作相比,我们的TBC进一步利用了每种thin滤波器的全部潜力。我们将在后续章节提供与这些网络的比较。

分组卷积:2012年论文AlexNet提出了分组卷积(GC)来消除滤波器冗余。由于每个分组卷积GC滤波器只与其组中的特征卷积,具有相同的通道数,因此该机制可以将每层中的参数数减少B倍,其中B是组数。当组的数量与输入特征层的数量相同时,分组卷积(GP)就和深度卷积(DW)相同。分组卷积(GC)和深度卷积(DW)都通过减少每个过滤器的大小来大大减少模型冗余。然而,他们从不探究(学习)滤波器之间的相关性。

由于分组卷积(GC)和深度卷积(DW)中的每个过滤器只响应部分输入特征图,因此合并跨通道维度的全局信息的能力在GC中受损,在DW中完全丢失。相比之下,我们的TBC滤波器在所有输入通道之间共享,并且可以聚合长期依赖关系。这个机制还带来了另一个好处,对B个组合块都应用了相同的thin滤波器,因此TBC可以充分利用GPU强大的并行计算能力。

注意力模块:(Hu、沈和Sun 2018)引入Squeeze-and-Excitatio 模块,以自适应地重新校准通道级特征响应。(曹等2019)将SE和一个non-local moudel统一为一个全局上下文块(GCB)。虽然SE和GCB相对来说比较轻量,但SE (GCB)还是占模型尺寸大小的10% (25%)。捆绑块组卷积(TGC)和捆绑块全连通层(TFC)可以集成到各种注意力模块中,并显著减少参数数量:SE为2.53M vs 0.04M,GCB为10M vs 2.5M。

Tied Block 卷积网络设计

我们首先对TBC和TGC进行分析,以指导我们的网络设计。我们还设计出了TFC,并将其应用于注意力模块。

TBC 规则

输入特征定义为 X ∈ R c i × h i × w i X \in \mathbb{R}^{c_{i} \times h_{i} \times w_{i}} XRci×hi×wi,输出特征定义为 X ~ ∈ R c o × h o × w o \tilde{X} \in \mathbb{R}^{c_{o} \times h_{o} \times w_{o}} X~Rco×ho×wo,其中 c c c h h h w w w分别是通道数、特征图的高度和宽度。卷积核大小为 k × k k×k k×k,为了清楚起见,忽略偏差项。

标准卷积:被定义 ∗ * ,可以表示为: X ~ = X ∗ W \tilde{X}=X * W X~=XW其中 W ∈ R c o × c i × k × k W \in \mathbb{R}^{c_{o} \times c_{i} \times k \times k} WRco×ci×k×k为标准卷积核,SC的参数如下: c o × c i × k × k c_{o} \times c_{i} \times k \times k co×ci×k×k

分组卷积:首先将输入特征 X X X分成 G G G个等大小的组 X 1 , … , X G X_{1}, \ldots, X_{G} X1,,XG,其尺寸的大小为 c i / G × h i × w i c_{i} / G \times h_{i} \times w_{i} ci/G×hi×wi。每个组共享相同的卷积滤波器 W g W_g Wg,则GC的输出计算为
X ~ = X 1 ∗ W 1 ⊕ X 2 ∗ W 2 ⊕ ⋯ ⊕ X G ∗ W G \tilde{X}=X_{1} * W_{1} \oplus X_{2} * W_{2} \oplus \cdots \oplus X_{G} * W_{G} X~=X1W1X2W2XGWG其中 ⊕ ⊕ 是沿通道维度的级联操作, W g W_g Wg是组 g g g的卷积滤波器,其中 g ∈ { 1 , … , G } , W g ∈ R c o G × c i G × k × k g \in\{1, \ldots, G\}, W_{g} \in \mathbb{R}^{\frac{c_{o}}{G} \times \frac{c_{i}}{G} \times k \times k} g{1,,G},WgRGco×Gci×k×k,GC的参数量为 G × c o G × c i G × k × k G \times \frac{c_{o}}{G} \times \frac{c_{i}}{G} \times k \times k G×Gco×Gci×k×k

Tied Block Convolution:通过使用以下公式在不同特征组之间重用滤波器,减少滤波器的有效数量: X ~ = X 1 ∗ W ′ ⊕ X 2 ∗ W ′ ⊕ ⋯ ⊕ X B ∗ W ′ \tilde{X}=X_{1} * W^{\prime} \oplus X_{2} * W^{\prime} \oplus \cdots \oplus X_{B} * W^{\prime} X~=X1WX2WXBW其中 W ′ ∈ R c o B × c i B × k × k W^{\prime} \in \mathbb{R} \frac{c_{o}}{B} \times \frac{c_{i}}{B} \times k \times k WRBco×Bci×k×k是所有组之间的共享TBS滤波器。参数的数量是 c o B × c i B × k × k \frac{c_{o}}{B} \times \frac{c_{i}}{B} \times k \times k Bco×Bci×k×kTBC vs. GC. 虽然TBC是组间共享滤波器的钱GC,但它与GC的实际结果有几个主要区别(假设B = G)。

  • TBC的参数比GC少B倍。
  • TBC在GPU利用率上只有一个碎片,而GC有G个碎片,大大降低了并行度。图3显示处理时间随着GC中的组数线性增加,而我们的TBC保持几乎相同的处理时间。
  • TBC可以更好地对跨通道依赖关系进行建模。因为每组GC过滤器在通道的子集上进行卷积,因此GC很难跨通道聚合全局信息。但是,每组TBC滤波器都应用于所有输入通道,可以更好地模拟交叉通道道相关性。
  • 基于TBC的TiedResNet在物体检测和实例分割任务上大大超过了GC集成的ResNeXt。TiedResNet-S模型降维2倍甚至优于ResNeXt,表明TiedResNet更有效地利用了模型参数。
    在这里插入图片描述
    图3:使用RTX 2080Ti 处理每个特征图1000次迭代所需的时间成本。当组数增加时,GC几乎线性地增加时间成本。相反,当使用较大的B时,TBC保持类似的时间成本。测试不同块数B的GC和TBC,通过改变总滤波器数来固定这些值的总FLOP。当 B = 1 B=1 B=1时,GC和TBC等于SC。输入特征图的大小为56×56×2048。

Tied Block Group Convolution (TGC):结合TBC的思想也可以直接应用于组卷积,公式如下: X ~ = ( X 11 ∗ W 1 ′ ⊕ ⋯ ⊕ X 1 B ∗ W 1 ′ ) ⊕ ⋯ ⊕ ( X G 1 ∗ W G ′ ⊕ ⋯ ⊕ X G B ∗ W G ′ ) \begin{aligned} \tilde{X}=&\left(X_{11} * W_{1}^{\prime} \oplus \cdots \oplus X_{1 B} * W_{1}^{\prime}\right) \oplus \cdots \oplus \\ &\left(X_{G 1} * W_{G}^{\prime} \oplus \cdots \oplus X_{G B} * W_{G}^{\prime}\right) \end{aligned} X~=(X11W1X1BW1)(XG1WGXGBWG)其中 W g ′ ∈ R c o B G × c i B G × k × k , X g b ∈ R c i B G × h i × w i W_{g}^{\prime} \in \mathbb{R}^{\frac{c_{o}}{B G} \times \frac{c_{i}}{B G} \times k \times k}, X_{g b} \in \mathbb{R}^{\frac{c_{i}}{B G} \times h_{i} \times w_{i}} WgRBGco×BGci×k×k,XgbRBGci×hi×wi是分割的特征图, g ∈ [ 1 , G ] g \in[1, G] g[1,G] b ∈ [ 1 , B ] b \in[1, B] b[1,B]

Tied Block Fully Connected Layer (TFC) :卷积是全连接(FC)层的特例,正如全连接层(FC)是卷积的特例一样。我们将相同的tied block filtering思想应用于FC。TTFC)共享相等的输入通道块之间的FC连接。与TBC一样,TFC可以减少 B 2 B^2 B2倍的参数和B倍的计算量。

TBC/TGC in Bottleneck Modules

ResNet/ResNeXt/ResNeST的瓶颈层具有1×1和3×3卷积滤波器。我们以不同的方式应用TBC/TGC,如图4所示。对于ResNet和ResNeXt中的3×3,我们将所有过滤器分成组;每个组都有自己的TBC/TGC设置。对于ResNet和ResNeXt中的3×3卷积,我们将所有器波器分组;每个组都有自己的TBC/TGC设置。此选择允许不同级别的共享,并受网络可视化工作的推动:滤波器在不同的层扮演不同的角色,有些是独特的概念检测器。对于瓶颈层入口和出口的1×1卷积,我们用B = 2的TBC替换条目1以允许过滤器共享,同时保持出口卷积以跨通道聚集信息。 由于ResNeST用k个基数代替3×3卷积为多径和拆分注意模块,3×3卷积在整体模型复杂度中所占的比例较小。 因此,与1×1卷积一样,我们只将所有3×3卷积替换为B=2的TBC。进一步增加B只会略微减少模型参数,但会大大降低性能。
TiedResNet-50(TiedResNeXt-50)的默认设置是4个拆分,基本宽度为32(64) ,即4S×32W(4S×64W),TiedResNet-S(TiedResNeXt-50s)默认设置为4S×18W(4S×36W)。 我们的TiedBottleNeck在ImageNet-1K上的TOP-1准确率方面达到了1%以上的性能提升。然而,失去跨通道整合可能会削弱该模型。为了把它加回去,我们引入了一个混频器,它融合了多个分路器的输出。引入混合器可将性能再提高0.5%。混频器的输入可以是分割输出的级联或元素和。表6显示了按元素求和具有更好的权衡。

注意模块中的TBC和TFC

我们将TBC和TFC应用于关注模块,如SE(Hu、Shenin和Sun 2018)和GCB(CaO等人)。2019年),只需将SC和FC替换为它们的平局块对应项(图5)。这两种设计都在不降低性能的情况下显著减少了参数数量。

Experimental Results

我们在目标识别、目标检测、实例分割和注意力等主要基准上对TBC、TGC和TFC进行了广泛的测试。

ImageNet分类

实现。我们遵循标准的实践,通过随机裁剪大小为224×224像素来进行数据增强。我们使用SGD在8个GPU上以0.9的动量和256个的小批量训练网络。学习速率最初设置为0.1,然后每30个周期衰减10倍,总共100个周期。
在这里插入图片描述
表1:ImageNet-1k上的识别准确率和模型大小比较。TBC/TFC/TGC的融合可以使各种骨干网络获得一致的性能提升。TiedResNet-S甚至大大超过了目前的SOTA修剪方法Taylor-FO-BN-ResNet50和移动架构GhostNet(大型模型版本)。基线是从Pytorch model zoo复制的,我们TBC版本在8个2080Ti GPU上训练了100个epoch,以便进行公平的比较,除非另有说明。 † † 表示:用更大的epoch、标签平滑、余弦学习率调整和更多的数据扩充来训练; ‡ ‡ 表示:使用发布的代码、标准数据扩充和100个训练epoch重新实现结果。

性能提升。表1比较了多个模型在ImageNet-1k验证集的识别精度。在表1中,TiedResNet50-S在TOP-1精度方面击败了ResNet50,与其相比只有60%的Flops和54%的参数,TiedResNet101-S亦是如此。这些结果证明了TBC更有效地利用了参数。在模型复杂度相近的情况下,TiedResNet50和TiedResNet101在参数减少10%的情况下,可分别超越基准1.5%和1.4%以上。TiedResNeXt和TiedSENet也有类似的趋势。为了进一步证明TBC的有效性,我们将其与现有的SOTA模型ResNeST进行了集成。TiedResNeST-50-S只需59%的参数和82%的计算代价,在ImageNet-1k上获得了比ResNeST-50-S更好的性能。

目标检测与实例分割

MS-Coco包括80个对象类别,118K/5K/208K图像分别用于训练(TRAIN-2017)、验证(VAL-2017)和测试(TEST-2017)。评估IOU阈值的平均精度(AP),范围为0.5到0.95,间隔为0.05。报告了不同质量(AP50和AP75)和不同尺度(APS、APM和APL)的检测性能。报告了不同质量(AP50和AP75)和不同尺度(APS、APM和APL)的检测性能。所有模型都在2017 Split数据集上训练,并在VAL-2017上报告结果。

实现:我们在PyTorch实现中使用基准主干和我们的TiedResNet模型检测器。在不改变纵横比的情况下,图像的长边和短边的大小分别调整到最大值1333和800。由于1×学习进度表(LS)的不完善,我们只报告基线和我们的模型的2×LS的结果。

结果:我们与ResNeXt和ResNet在多个最先进的框架上进行了全面的比较,包括单阶段检测器,RetinaNet和两阶段检测器, Mask R-CNN,结果如图6所示。由于(陈等2019)重新实验的结果通常比原始论文中的更好,因此我们报告重新实验的结果以进行公平的比较。
在这里插入图片描述
图6:MSCOCO Val-2017的目标检测和实例分割任务中,主干网络参数数量与其平均精度之比。对于单阶段探测器RetinaNet和两阶段探测器Cascade R-CNN和Mask R-CNN,TiedResNet以更少的参数持续优于ResNet、ResNeXt和HRNetV2,详细结果见附录。

目标检测:如图6所示,使用TiedResNet作为骨干,单阶段检测器RestinaNet和两阶段检测器Cascade R-CNN和Mask R-CNN在BOX AP方面持续优于基线2%到2.5%。RetinaNet上的TiedResNet101甚至大大超过了参数量更多的ResNeXt101-64×4d。详细比较各种框架和Pascal VOC(Everingham et al.。2015)在附录材料中。

实例分割:使用轻量级TiedResNet-S和同等大小的TiedResNet主干,我们观察到 A P m a s k AP^{mask} APmask的值分别增加了1.1%和2.1%。不管基线检测器有多强,我们总是观察到AP的上升,这证实了TBC的有效性。

高度遮挡的实例:由于遮挡要求网络在准确检测目标区域的同时区分不同的实例,因此在遮挡较大的图像上的性能体现了网络的定位能力。每幅图像的遮挡比R为: r =  total overlap area   total instance area  r=\frac{\text { total overlap area }}{\text { total instance area }} r= total instance area  total overlap area 平均IOU为0.5到0.95的AP和IOU=0.75时的 A P 75 AP^{75} AP75分别作为标准评价指标和限制性评价指标。图7(a)和图7(b)显示ResNet受遮挡的影响很大, A P 75 AP^{75} AP75 r = 0.8 r=0.8 r=0.8时下降了超过 6 6% 6,而我们的TiedResNet只略微下降了0.7%,超过了基准8.3%。同样,随着遮挡率的增大,AP的改善从2.8%增加到5.9%。MS-COCO中的这些定量结果表明,TiedResNet具有很强的处理高度重叠实例的能力,特别是在受限的评估指标上。图7©显示TiedResNet具有更少的假阳性提议和更好的分割质量。
在这里插入图片描述
图7:我们评估了TiedResNet和ResNet在不同遮挡比 r r r下的MS-COCO目标检测任务上的性能。报告了AP(a)和IoU = 0.75(b)时的AP。当r=0.8时,TiedResNet在 A P 75 AP^{75} AP75增加了8.3%,在AP增加了5.9%,在处理高度重叠的实例时更加有效。TiedResNet的误报提议要少得多,并且具有明显更好的实例分割质量。我们使用Mask R-CNN作为检测器。

为什么单阶段检测器增益较大?图A.1显示TiedResNet比ResNet/ResNeXt更好地定位目标区域,这对于没有提议回归层的单阶段检测器特别有利。
在城市景观上的性能。由于城市景观是一个很小的数据集,因此更深的网络通常会过拟合。因此,对于城市景观数据集,我们只部署了50层骨干网的实验。表2显示,TiedResNet50可以达到2.1%的 A P M A S K AP^{MASK} APMASK提升。

轻量级注意力

图5显示了我们的轻量级注意力模块。当B=1时,SE模块可以看作我们的TiedSE的特例;同样,当B=1时,GCB就是TiedGCB。

TiedSE的结果:对于基准模型和我们的模型,表3中的所有实验都使用16的缩减率。研究了TFC层的几种超参数设置。由于我们重新实验的基准模型结果比(Hu、沈和Sun 2018)论文中的结果更好,因此我们报告我们的结果以进行公平比较。虽然SE参数较少,但仍需要10%的整体模型参数。表3显示,在B=8的情况下,减少64倍的参数后,TiedSE仍可获得相当的性能。TiedSE不仅在SEResNet上,而且在移动架构EfficientNet(Tan和Le 2019)上,在不牺牲性能的情况下显著降低了参数。
在这里插入图片描述
表3:注意模块SE/TiedSE在ImageNet-1k上不同骨干网的#params及识别准确率比较。研究了不同超参数B下的性能。在SEResNet50(EfficientNet-B0)上,仅使用1.6%(6.4%)的参数,TiedSE的性能优于SE。 ‡ ‡ 表示我们重新实验的结果。

TiedGCB检测结果:全局上下文块(GCB)(CaO等人。2019)通过全局上下文建模和远程依赖来增强分割和检测预测。GCB与TBC相结合可以在不降低性能的前提下显著减少参数个数。表4显示,TiedGCB在 A P M a s k AP^{Mask} APMask A P b b o x AP^{bbox} APbbox中分别获得了1.8%和1.4%的增益,参数减少了16倍.虽然分组卷积可以将参数减少2倍,但由于每个GC滤波器只看到特征的子集,因此对跨通道相关性建模的能力也降低了,损失了 A P M a s k AP^{Mask} APMask和$AP^{bbox}$0.4%。在这里插入图片描述
表4:注意力模块GCB/TiedGCB#个参数的比较(CaO等人。2019),以及它们在MSCOCO Val-2017的目标检测和实例分割任务上的性能。本文研究了不同B的影响。并对GCB与群卷积的结果进行了比较。

消融实验

分组数目的影响:正如在(Zeiler和Fergus 2014; Bau等人2017; Xu等人2015)中所研究的那样,对应于各种视觉概念(例如颜色、纹理、对象、部件、场景、边缘和材料)的神经元/滤波器的比例随可解释性的不同级别而不同。将不同的功能滤波器分组在一起以实现不同级别的共享可能是有用的。在表5中,我们将 3 × 3 3×3 3×3卷积层中的所有通道分割为 s s s个组。在 4 s × 32 w 4s×32w 4s×32w设置中,对于4个 3 × 3 3×3 3×3TBC层,每个分割的基宽为 w w w,B分别为1、2、4、8。表5还说明了将输入特征图分割成若干块的必要性,当只有2块分割时,top 1的精度将下降0.4%。
在这里插入图片描述
表5:对分割数量和每个分割块的基宽的消融研究。列出了ImageNet-1k的准确度(%)。

TiedBottleneck中的Mixer module:由于我们将输入特征图分割成几个部分,因此忽略了这些部分之间的相互依赖关系。为了跟踪相互依赖关系,使用mixer来聚合交叉分割信息。 表6研究了几种融合方法。使用级联可以达到最好的精度,但它引入的参数要多得多。因此,我们选择元素和作为融合函数,作为精度和模型大小之间的折衷。
在这里插入图片描述
表6:Mixer module融合方法的消融研究。

滤波器相似性:我们使用ImageNet预先训练好的ResNet50和TiedResNet50-S来比较不同层的余弦滤波器相似度。滤波器的引导反向传播模式之间的成对余弦相似性(Springenberg等人. 2014)在1000个ImageNet Val Split中的平均值被用来生成这些直方图。如图9所示,x轴是余弦相似度,y轴是概率密度。与VGG(Simonyan和Zisserman 2014)相比,ResNet(He et al.。2016)的冗余较少,而我们的TiedResNet的相似性最低,因此消除了整个深度层的大部分冗余,这验证了我们的假设和动机。

在这里插入图片描述
图9:成对滤波器相似性直方图

Grad-CAM可视化
为了提供不同主干网络之间的定性比较,我们使用来自ImageNet的图像来应用gradCAM (Selvaraju等人,2017)。Grad-CAM利用流入CNN最后一个卷积层的梯度信息来理解每个神经元。生成的定位图突出了图像中用于预测概念的重要区域,并反映了网络利用目标对象区域中的信息的能力。图A.1显示TiedResNet比ResNet和ResNetX更适合聚焦目标对象,表明性能提升来自对无关杂波的准确关注和降噪。
在这里插入图片描述
图8:第1行图像的ResNet50、ResNeXt50和TiedResNet50之间的Grad-CAM可视化比较。Grad-CAM(Selvaraju等人。2017)是为最后的卷积输出计算的。

此属性对于对象检测和实例分割非常有用,因为这些任务要求网络更精确地关注目标区域及其聚集特性。对目标区域的不正确关注也会导致大量的假阳性提议。

总结

我们提出了捆绑块卷积(TBC),它在相同的通道块上共享相同的thin滤波器,并用一个滤波器产生多个响应。TBC的概念还可以扩展到组卷积和全连接层,并可以应用于各种骨干网络和注意模块,并对基线进行持续的性能改进。基于TBC的TiedResNet也超过了基线,具有更高的参数使用效率和更好的检测严重遮挡下的目标的能力。

附:

余弦相似度是对两个向量相似度的描述,表现为两个向量的夹角的余弦值。当方向相同时(调度为0),余弦值为1,标识强相关;当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0,标识他们无关。

©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页