Can relearning local representation help small networks for human pose estimation?

文章提出了一种新的层-通道混合注意机制,称为综合注意(IA),用于人体姿态估计任务。IA解决了深层卷积神经网络在学习过程中失去局部信息的问题,通过同步不同范围的空间结构来增强网络的感知能力,尤其在小规模网络中表现优越,能实现与大型网络相当甚至更好的预测精度。实验表明,IA模块在ResNet和HRNet等骨干网络中都能有效提升性能。
摘要由CSDN通过智能技术生成

2023年2区文章

  1. 摘要

人体姿态估计是一种特殊的对小物件定位检测的任务。由于变量身体姿势和复杂的场景它不仅需要考虑全局架构也要关注局部细节。然而,随着滑动窗口学习机制、卷积神经网络(CNN)只能看到一定层接受域的空间信息在一个特定的大小在一定层。随着网络日益加深和接受域变大,网络逐渐关注当地的全球空间信息和失去了知觉特性。为帮助深度卷积神经网络有能力重新学习本地信息在深层结构的分析,我们提出一个layer-channel,它混合了注意力机制,可以灵活地嵌入到CNN。多个特性与前一层聚合与同步建立注意观察不同范围的空间结构。通过集成的关注,网络上可以观察到不同地方之间的相互依存结构,接受局部和更多的线索可以学习提高表达能力学习网络的特性。大量实验的结果表明,该集成注意力机制有利于人体姿态估计。特别是集成关注可以帮助小型网络实现更准确的预测,甚至优于较大的用更少的计算和参数。与其他关注和关键点细化模块相比,我们更稳定和更好的改善效果。

  1. 重点介绍

HPE非常具有挑战性,因为图像中的关键点很小,并且它们的边界没有明确划分。由于各种姿势和严重遮挡的场景,HPE变得更加困难。近年来,随着卷积神经网络(CNN)的发展,HPE取得了重要进展。针对场景中的姿态变化、遮挡和自聚焦等问题,在骨干HPE神经网络的基础上提出了关键点细化模块,包括设计损失函数来重点估计困难关键点,热图的细化以及直接将公共注意力机制(例如,挤压和激发SE)通道注意力卷积块注意力模块(CBAM)通道空间注意力)引入骨干网络。然而,CNN对于HPE任务具有固有的缺点。这可以归因于其卷积模式和结构,即使用特定大小的感受野中的空间信息来学习某一层的图像特征。具体而言,较低层的CNN从局部图像区域的边缘和颜色中学习低级特征,并且随着层的加深和感受野的扩大,它专注于从远程空间结构和全局信息中获得高级语义特征,但逐渐缺乏对高级局部特征的必要学习能力(全局建模的提出transformer。为了解决这个问题,DenseNetResNet在深层中重用浅层特征,以增强网络的特征表示能力。本文针对人体姿态估计的特殊性,进一步探讨了浅层特征在网络学习中的作用HPE任务的目的是检测、分类和定位人体关键点。由于关键点是小目标,人体姿态变化大,关键点的局部信息点,特别是局部结构之间以及局部结构与全局结构之间的相互依赖性,对于合理推断人的结构是重要的。换句话说,在卷积网络的更深阶段,不同关键点的局部区域之间的相关性对于全局推断是有用的。现有的残差计算、密接等没有充分考虑这一特殊性。将那些现成的注意力模块直接嵌入到骨干网络中也不能彻底克服CNN的缺点,因为它们仍然仅使用来自单个卷积层的特征,并且不考虑人体的整体结构与局部结构的空间关系。

在本研究中,我们旨在解决这一问题,通过引导卷积网络在学习深层全局结构的同时,重新学习局部区域周围的上下文信息,来增强网络的感知能力。为此,我们设计了一种可嵌入的集成注意机制,以一体式的方式学习全局和局部细节。我们的局部和全局联合学习模块将不同接受域下的多层特征作为输入,然后将这些来自不同层的特征聚合在一个子分支中进行分析,如图1(c)所示。之前的注意力模块,如SE,由于只使用了单一卷积层的特征,需要加入相邻两层之间的骨干网络中,如图1(a)(b)所示。相比之下,本文提出的集成注意力模块使用多层特征作为输入,其嵌入方法更像是搭建一座桥梁,传递低层和高层特征,学习各特征之间的相关性。我们将我们的贡献总结如下:

  1. 首先,我们提出了一种新的层-通道混合注意,称为综合注意(IA)。它是专为小目标定位的任务,即人体姿态估计,其中全局结构和局部细节对推理同样重要。为此,我们的IA通过同步观察不同范围的空间结构来聚合不同卷积层的不同接受域的特征,并建立注意力。重新学习高级特征中的局部信息可以帮助网络从新的角度重新研究特征的上下文信息。
  2. 其次,本文的目的是获得比那些较重量级的HPE网络更强、更高效、参数更少、计算量更少的HPE网络。我们提出了一个灵活的以及轻量级集成注意机制,帮助网络获得SOTA性能。大量的实验表明,我们的IA对于增强小规模卷积网络的表达能力特别有用,以获得与大规模卷积网络相同甚至更好的性能。
  3. 第三,我们的IA可以灵活地嵌入到主干的任意层或卷积块中。为此,我们设计了一种多特征统一(MFU)策略,统一来自不同层的输入特征映射的比例和通道数,使IA模块更具兼容性。
  1. 先前工作总结

3.1人体姿态估计

目前HPE的主流方法是深度学习,以CNN为代表。传统的HPE方法,如全局特征和图模型,需要考虑全局的空间位置关系,优化关键点之间的关联。这使得模型学习困难,训练速度变慢。相比之下,CNN可以综合解决特征提取问题和学习人体结构之间的关系,即使在复杂背景下也具有良好的识别性能。早期基于深度学习的方法通过构造级联的多级CNN网络直接回归关键点坐标。随着网络的深入和全卷积神经网络的出现,学者们进行了大量的研究,并对cnn的构建做出了重要贡献,其中堆叠沙漏网络以其对称的拓扑结构成为一般的骨干网络。一些关于HPE任务的研究也使用ResNet作为骨干网,因为它使用更小的卷积核和剩余连接来构建深度神经网络。ResNet解决了传统CNN深化时梯度消失带来的性能不足,得到了更好的预测结果。HRNet是专门针对HPE提出的。与以往的模型不同,HRNet从一个高分辨率的子网络作为第一阶段,逐步增加一个高分辨率到低分辨率的子网络,形成更多的阶段,并将多分辨率子网络并行连接。保持高分辨率特征可以有效缓解由低到高恢复分辨率过程中造成的图像信息损失。然而,当网络深入时,HRNetResNet仍然存在局部特征学习效率低下的问题。我们将在第3节对此进行进一步的描述和分析。

3.2注意机制

以其高效率的特点被广泛应用于目标检测、语义分割、人员再识别、医学图像分析和人机交互等计算机视觉任务中。根据关注域,注意机制可分为空间注意机制、通道注意机制、层注意机制和混合注意机制。其中,关于信道、空间以及包含空间和信道信息的混合注意的研究较多。通道注意机制旨在区分不同通道的贡献,定义一组权重,并为学习兴趣区域的特征图中的每个像素分配更高的概率值。最常见、最经典的作品是SE。目前的混合注意机制是通道-空间注意。代表性的方法是卷积块注意模块(CBAM)。它沿着两个独立的维度依次推断注意力地图,即通道和空间。然后,将注意图与输入特征图相乘,进行自适应特征细化。CBAM中通道和空间注意的排列呈线性顺序。也有多分支排列模型,如姿态优化机(PRM),它有三个分支,身份连接,SE块和一个空间注意。不管信道空间注意的排列方式如何,上述注意,无论是作为一个模块嵌入,还是作为多个分支的融合,都是在学习某一层的特征图转换。

在语义分割网络中,提出了跨层注意,利用在深层学习到的具有丰富类别信息的高级特征对低级特征进行加权。由于语义分割是一个像素级的分类任务,高级别的类别信息可以指导低级别的特征选择类别本地化细节。虽然HPE任务也是像素级分类任务,但与语义分割不同的是,HPE主要用于小目标(即关键点)的检测和定位,其中人体不同部位的空间结构相互依赖对于识别每个部位非常重要。我们的工作首次提出了一种新的层-通道混合注意的HPE,称为综合注意。IA最初的想法是在深层再次关注局部区域,同步来自CNN不同深度的通道特征,在正常的卷积学习过程中同时看到不同视场的图像。使用现有的注意力机制和特征融合方法无法实现这一目标。对比IA模块与现有注意机制的差异,我们总结出以下三个方面:

  1. 集成注意分别从浅层和深层聚合低层次和高层次特征。
  2. 通过共同学习模式计算不同层次结构特征之间的相关性,得到一组权重,其中包含人体部位与整体结构之间的相互依赖关系。
  3. 综合关注高级别特征,使其包含高级别局部特征。它有助于骨干网具有更强的感知能力。

4.本文所用综合注意法

我们的目标是开发一个通用模块,可以灵活地插入HPE骨干网。为了明确地描述我们的IA的设计,在本节中,我们首先简要介绍了HPE领域中应用广泛的两个骨干网ResNetHRNet。然后分析了神经网络中感受野的大小随深度的变化。最后,给出了一种一体式、多层通道混合的集成注意机制的实现,包括IA模块的设计、用于处理输入失配问题的MFU策略以及不同骨干网使用IA的网络结构。

4.1常用的为HRNetResNet

理解卷积网络的具体结构,有助于我们理解一定大小的图像输入网络后,在分辨率和接受野上会发生一系列的变化。如图2(a)所示,ResNet对输入图像不断进行下采样,最后通过转置卷积恢复到原始大小。该过程涉及多次下采样,通过感知人体骨骼从局部到全局的信息,获得不同分辨率的特征图。图2(b)显示了HRNet,这是一个高分辨率表示和并行多分辨率网络。它包括四个分支,在水平上保持相同的分辨率,在纵向上在不同的尺度上变化。

IA核心思想是通过综合分析多个感受野的特征,更好地捕捉人体结构线索,从而增强网络感知。3示出了在嵌入IA之后的改进模型的概述。在不同的骨干网络中,这些特征图可以具有不同的尺度(例如ResNet)或相同的尺度(例如HRNet)。但是,它们必须位于网络的不同深度。在下一节中,我们分析了感受野,以进一步解释IA的工作机制。

改进后的网络主干嵌入综合注意机制(IA)。在感受野的变化中可以看出,随着网络的加深,感受野变大,网络在深层卷积中更加关注图像的全局信息。在嵌入IA之后,深度卷积能够重新学习局部信息。

4.2 感受野分析

给定CNN的某一层,感受野是指输出特征图中的一个像素映射到原始输入图像的区域。取卷积核大小为3*3作为示例,步长为1,填充为0,并且输入图像长度和宽度被设置为7。图4示出了在两层卷积之后与特征图上的每个像素相对应的感受野的大小。在第一个卷积层之后,感受野的大小为3*3,而第二层之后,就变成了5*5.在不损失泛化的情况下,第i个卷积层Fi的感受场可以使用等式(1)来计算。

其中Fi表示i的感受野其中,ki表示第i层卷积的核大小,rj是第j层卷积的步长。根据Eq.1,我们可以计算和分析骨干ResNetHRNet每个阶段结束时的感受野大小。与此同时,Eq1证明,只要ki1rj0,感受野大小Fi就随着CNN深度的加深而持续增加(深度卷积网络通常是这种情况)。这意味着CNN的计算过程,其中它逐步地从高分辨率图像的局部小视图观察整个图像。因此,在网络的深层,模型一直在从大的感受野学习全局特征。由于HPE任务检测定位的对象是关键点,是小目标,合理的推理不仅需要了解人体的全局结构,还需要了解细节区域。不过,CNN不能只关注这些两个方面,同时了解其内在的学习过程。虽然浅层和深层之间的跳跃连接有助于融合具有不同结构信息的特征(resnet网络),但仍然需要有效的注意机制来增强深层的感知能力。因此,我们提出了一种多层特征同步学习的注意机制,它将下层的局部信息与深层的远程信息整合在一起进行学习,可以更好地引导深层骨干网络重新学习局部表示和高层特征,以关注小目标区域。

4.3. 集成的关注

集成注意模块可以看作是一个计算单元,它集成了从层维度和通道维度上不同范围的特征信息,并嵌入到骨干网中。IA可以通过聚合不同层的特征来打破传统CNN的固化模式,并利用通道注意对特征图进行重加权。它可以收集任意中间特征张量X= [X1,X2,…Xc]Y= [Y1,Y2,…Yc]作为输入。XY分别是来自CNN的第i层和第j层的特征图,它们有不同的感受野大小FiFj,如果i < j,则Fi < Fj。如果输入XY具有不同的尺寸,则使用MFU模块(参见第4.4小节)来统一它们。转换输出的大小= [S1,S2,…Sc] 大小为c*1*1),即权重集。集成注意模块的结构如图5所示。整体上IA可分为特征集成和同步注意生成两部分

4.3.1. 特征集成

第一步是对输入特征X,Y大小为c*h*w)进行全局平均池化(GAP),转换后的输出为X'Y'大小为c*1*1)。从较低层学习到的特征X包含较小接受野的局部细节证据,而从较深层学习到的特征Y包含较大接受野的远程结构信息。GAP通常用于压缩信道特征的空间信息。在我们的IA中,也使用GAP来降维,以减轻注意力模块的重量。平均结果保留了前一卷积层提取的空间和语义信息。

第二步是连接X'Y'得到Q大小为2c*1*1),使得特性被聚合。我们的IA设计的动机是实现更多的消除歧义的目标特定阶段的线索。随着卷积的深入,当网络集中于学习一个远距离空间结构时,局部空间信息可能会变得模糊。这种混合转换使得我们的IA机制在接下来的同步注意生成中,不仅关注远程信息Y,还同步理解本地信息X。因此,深层的主干可以同时学习不同范围的上下文信息,以及不同接受域的局部结构之间的相互依赖关系,

4.3.2. 同步注意力生成

受非局域和SE的启发,为了更好地利用整合信道的特性,我们提出了一种同步注意力生成的转换。首先,对于嵌入式计算模块,其结构需要尽可能简单。此外,它还应该能够学习通道之间的非线性关系。为此,我们首先将Q输入到1 *1卷积块C1()中,如式2所示:

其中δ表示relu激活函数,[X,Y]表示级联操作,f表示输出(大小为c*c

其中对f进行全连接操作,σ为sigmoid激活函数,输出s为长度与输入通道数一致的权重标量集。设计细节如图5所示。最后,标量s使用逐元素乘法与深层高级特征Y相乘,得到包含更多信息的输出特征Z这一过程如图3所示。转换后的输出映射Z = [Z1,Z2,…],Zc]与X, Y相同,如式4所示:

我们的整合注意力不在仅仅关注通道之间的相关性来重新学习权重的分布,而是可以整合同步地研究不同视场下的特征图。如上所述,这样的编码过程有助于模型更好地理解感兴趣的区域,并增强其学习特征的能力。我们将在第5.9小节中通过可视化方法演示这一点。

4.4. 多功能统一

IA涉及来自不同卷积层的多个输入。对于不同维度的输入特征,我们需要使用MFU策略将输入特征统一到同一维度,如图6所示,在IA连接到ResNet之前,先使用MFU对底层特征进行重塑。也可以直接嵌入,如图所示,IA直接连接到HRNet

因为我们希望两个输入特征的学习在IA中是平衡的,没有由于分辨率和通道数量的不一致而造成的差异。MFU首先处理了CNN在不同层生成不同尺寸特征时的尺度不匹配问题。有两种情况:向上抽样,即从低分辨率到高分辨率,以及从高分辨率到低分辨率的下采样。具体策略如下:上抽样采用简单的最近邻抽样;对于下采样,使用3 × 3大小的卷积块以利用一定的步长和填充来减小图像比例。同时,MFU使通道数与深层次特征保持一致。

4.5嵌入方法

主要目标是设计一种可以提高2D HPE网络的特征提取能力并优化关键点检测结果的方法。我们为HPE设计的注意力IA是层-通道混合注意力,可以灵活地嵌入到网络中。有不同的方法来嵌入IA。在这里,提供了两种嵌入方法的骨干网络。一种方式是聚合两个相邻层(级)的输出特征作为IA的输入。另一种方法是收集网络的更深层(阶段)特征作为输入。图6和图7分别示出了将IA模块嵌入到ResNetHRNet中的两种结构。其中,由于ResNet是一种以高到低分辨率结构为特征的模型,因此我们可以采用MFU策略来统一嵌入特征图的尺度。由于更深层的通道数量ResNet的第一层(第三层)大于前一层(第二层),因此在图6B)中的ResNet_IA_1_3中使用MFU将带来比图6a)中的ResNet_IA_1_2更多的参数和计算。因此,在参数的增加和改进之间进行权衡,我们只在骨干网ResNet 50上使用ResNet_IA_1_2来验证注意力的有效性,并在实验中与其他方法进行比较。由于ResNet 101是一个更深的神经网络,因此在第3层中添加的卷积层比ResNet 50多。为了获得深层的高级特征,我们在实验中使用ResNet_IA_1_3ResNet 101上。由于HRNet是一个高分辨率的维护模型,它在不同的网络深度具有相同分辨率的特征图;因此,IA可以直接嵌入而无需MFU。我们使用图1和图2中所示的两种嵌入方法进行实验。7a)和(B),并在下一节中具体解释。

5 实验

5.1基础介绍

在本节中,我们首先介绍了被广泛认可的数据集cocoMPII,以及在这两个数据集上采用的设置。接下来,我们报告了综合实验的结果,以评估采用所提出的IA机制在骨干网中的性能改进。特别地,我们给出了实验结果,在使用IA后,小型网络可以与大型网络竞争。然后,我们展示了与其他注意方法的比较效果。此外,我们还介绍了MFU策略的消融实验结果。为了展示IA的通用性和灵活性,除了HRNetResNet作为骨干网外,我们还将其应用于流行的骨干网沙漏网。相应实验结果如表1所示。

5.2根据输入选择结构

在同一骨干网的情况下,IA受到两方面的影响:不同的嵌入方法和输入大小。HRNet-w3238呈现出来的准确率存在差异,这是因为在输入尺寸较大的情况下,相对于输入尺寸较小的情况,相邻两个阶段之间的图像感知信息的感受野变化较小。因此,在接下来的实验中,如果没有特别说明,对于输入大小256 × 192,我们选择HRNet_IA_1_2,对于输入大小384 × 288HRNet_IA_1_3

本文的根本目的是设计一个简单高效的可嵌入注意力模块,同时不给骨干网增加太多负担,如前所述,综合考虑参数和改进问题,我们对ResNet50使用ResNet_IA_1_2(见图6(a))的嵌入方法,对ResNet101使用ResNet_IA_1_3(见图6(b))的嵌入方法。

5.3 IA和基线

我们将综合注意力应用于HourglassResNetHRNet的标准基线网络,并使用具有48堆叠沙漏主干的Hourglass,具有ResNet 50/101主干的SimpleBaseline和具有HRNet-w32/w 48主干的HRNet。在COCO数据集中,从输入图像中裁剪检测到的人类图像块,并将其大小调整为256*192,用于主干ResNetHRNet

对于沙漏网络,我们用128*96的输入大小训练基线。沙漏x4是一个4块的堆栈。IA模块使用第二和第三沙漏的输出作为输入,并在第三沙漏的输出上执行注意力权衡。与Hourglassx4相比,Hourglassx8是一个更深层次的骨干网络。为了充分利用这种拓扑对称结构,并考虑到网络的深度,我们在沙漏x 8上应用了3IA模块,分别使用第2和第5、第3和第6、第4和第7块的输出作为输入对。对于ResNet,我们使用其公共代码进行重新训练,输入大小为256*192。表1列出了COCO val2017训练的结果。IA模块将所有基线网络的AP0.5%提高到1.1%。可以看出,当输入对的特征尺寸一致时,例如HRNetHourglass,由于IA引起的计算和参数增加几乎可以忽略不计。对于ResNet50ResNet101,由于原始网络随深度显著加宽,因此使用MFU加宽浅层特征以与深层特征一致,导致1.2MResNet50)和4.9MResNet101)的参数增加,计算量也在一定程度上增加。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值