Learning Delicate Local Representations for Multi-Person Pose Estimation解读

摘要:1、提出了Residual Steps Network(RSN)。 RSN融合相同空间尺寸的特征(Intra-level features)来获取细致的局部信息,保留了丰富的low-level的空间信息并且带来了精确的关键点定位。

             2、提出了一种有效的注意力机制Pose Refine Machine(PRM)来进一步优化关键点位置。

前言:

人体姿态估计主要是进行关键点定位和分类。Spatial information(空间上的信息,类似于low level信息)有利于定位任务,semantic information(抽象语义信息)有利于分类任务。为了解决上述问题,目前流行的方法主要是综合考虑inter-level的特征,比如:HRNET,主干网络保持高分辨率,并不断从低分辨率的子网络添加语义信息,综合了不同level的特征。CPN中通过一个头网络,组合了4个不同空间级别的特征。这些方法特征融合的方式不同,但都是综合不同level的特征。同级别的特征融合当前还缺乏探索。

下图为intra-level的特征融合和inter-level的特征融合对比。图1(a)中特征图连续被下采样到输入图片尺寸 的1/4,1/8,1/16,1/32。

 而本文是在同一空间尺寸下的连续特征图。图1(c)中不同级别特征对应的感受野之间存在较大的间隙。从图中可以看出inter-level的特征融合相对粗糙,阻碍了人体姿态定位的精度。图1(b)中intra-level的特征感受野gap相对较小。图1(d)表明,融合intra-level的特征能够提取更多精细的局部呈现,并保留更精细的空间信息。

  为了更好的得到局部信息,提出了Residual Steps Network(RSN), 由Residual Steps Block(RSB)组成,RSB结构受Densenet结构激发,通过深度连接,保留了丰富的low-level特征,但是采用element-wise sum的方式融合特征,而不是concat,防止了网络能力爆炸。除此植物ia,为了 更好地优化关键点位置,提出了注意力模块PRM。

 研究现状:

      特征融合:Hourglass(U-shape 卷积神经网络),Densenet, Res2Net, OSNet,都属于inter-level

     注意力机制:当前主流的注意力机制主要为两个类别,一个channel attention,一个spatial attention。

方法:

整体pipline:

如上图,通过若干单阶段RSN级联得到多阶段的网络结构。不同于Resnet,RSN由RSBs组成,ResNet由bottleneck blocks组成。最后一阶段使用了一个PRM。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值