Learning Delicate Local Representations for Multi-Person Pose Estimation解读

最新推荐文章于 2023-07-07 10:53:40 发布

进击的菜菜

最新推荐文章于 2023-07-07 10:53:40 发布

阅读量1.3k

点赞数

分类专栏：关键点检测文章标签：人工智能计算机视觉

本文链接：https://blog.csdn.net/Jinree/article/details/107213453

版权

关键点检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

摘要：1、提出了Residual Steps Network(RSN)。 RSN融合相同空间尺寸的特征（Intra-level features）来获取细致的局部信息，保留了丰富的low-level的空间信息并且带来了精确的关键点定位。

2、提出了一种有效的注意力机制Pose Refine Machine(PRM)来进一步优化关键点位置。

前言：

人体姿态估计主要是进行关键点定位和分类。Spatial information（空间上的信息，类似于low level信息）有利于定位任务，semantic information（抽象语义信息）有利于分类任务。为了解决上述问题，目前流行的方法主要是综合考虑inter-level的特征，比如：HRNET，主干网络保持高分辨率，并不断从低分辨率的子网络添加语义信息，综合了不同level的特征。CPN中通过一个头网络，组合了4个不同空间级别的特征。这些方法特征融合的方式不同，但都是综合不同level的特征。同级别的特征融合当前还缺乏探索。

下图为intra-level的特征融合和inter-level的特征融合对比。图1(a)中特征图连续被下采样到输入图片尺寸的1/4,1/8,1/16,1/32。

而本文是在同一空间尺寸下的连续特征图。图1(c)中不同级别特征对应的感受野之间存在较大的间隙。从图中可以看出inter-level的特征融合相对粗糙，阻碍了人体姿态定位的精度。图1(b)中intra-level的特征感受野gap相对较小。图1(d)表明，融合intra-level的特征能够提取更多精细的局部呈现，并保留更精细的空间信息。

为了更好的得到局部信息，提出了Residual Steps Network(RSN)，由Residual Steps Block(RSB)组成，RSB结构受Densenet结构激发，通过深度连接，保留了丰富的low-level特征，但是采用element-wise sum的方式融合特征，而不是concat，防止了网络能力爆炸。除此植物ia，为了更好地优化关键点位置，提出了注意力模块PRM。

研究现状：

特征融合：Hourglass(U-shape 卷积神经网络)，Densenet, Res2Net, OSNet，都属于inter-level

注意力机制：当前主流的注意力机制主要为两个类别，一个channel attention，一个spatial attention。

方法：

整体pipline：

如上图，通过若干单阶段RSN级联得到多阶段的网络结构。不同于Resnet，RSN由RSBs组成，ResNet由bottleneck blocks组成。最后一阶段使用了一个PRM。

进击的菜菜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Learning Delicate Local Representations for Multi-Person Pose Estimation解读

摘要：1、提出了Residual Steps Network(RSN)。 RSN融合相同空间尺寸的特征（Intra-level features）来获取细致的局部信息，保留了丰富的low-level的空间信息并且带来了精确的关键点定位。 2、提出了一种有效的注意力机制Pose Refine Machine(PRM)来进一步优化关键点位置。前言：人体姿态估计主要是进行关键点定位和分类。Spatial information（空间上的信息，类似于low level信息）有利于...
复制链接

扫一扫

专栏目录