human pose estimation-DEKR2021CVPR

视觉患者leon

已于 2022-07-27 15:18:04 修改

阅读量886

点赞数

文章标签：人体姿态估计自适应卷积多分支回归关键点定位精度提升

于 2022-03-16 22:18:31 首次发布

本文链接：https://blog.csdn.net/weixin_39455125/article/details/117298081

版权

一、基本任务

给定一张图像，预测出图像中每个人的关键点位置。即定位关键点，并判断关键点属于哪个person。（图中每个人的关键点为17个）
在这里插入图片描述

二、研究意义

人体姿态估计应用广泛，包括动作识别、行人跟踪、人机交互、智能照片编辑等

三、主要方法

注：研究人体关键点之间的几何约束和结构关系，可以提高性能。

1.top-down自上而下

（1）思路：两阶段，首先检测人，然后对每个检测到的人进行单人姿态估计。
**（2）优点和缺点：**优点是精度更高，缺点是效率更低，速度慢。

注：改进思路：从热图中定位关键点，细化姿态估计，数据增强，结合检测、分割和姿态估计的多任务学习架构，以及处理遮挡问题

2.bottom-up 自下而上

**（1）思路：**单阶段，直接回归出每个人关键点的位置。（或者是：先回归出图像中所有人的关键点位置，然后再将关键点按人分组）
**（2）优点和缺点：**优点是效率更高，速度快，缺点是精度不高。

四、当前问题

寻求一种算法，在解决人体姿态估计时，拥有精度和效率两种优势。

五、解决思路

作者认为，在自下而上的方法中，要想精确回归出图像中人物的关键点位置，需要重点关注关键点所在的区域，从关键点区域中学习到关键点位置。即想要回归出哪个关键点，我们就着重关注该关键点所在的区域。

（之前的自下而上方法是，对于图像中人物的每个像素，我们都回归出该像素位置到各个关键点位置的偏移量，因此这种方法没有关注各个关键点本身所在的区域）

六、方法概述

1.本文采用自适应卷积，去激活关键点所在区域的像素。然后从这些激活的像素中进行学习，从而得到对应关键点位置。这样做是让我们集中关注各个关键点所在区域。（采用自适应卷积后，有效提高精度）

2.将一个关键点的回归与其他关键点分离。即通过多分支结构，采用单独的回归方案，每个分支学习一个关键点的表示，该分支具有专用于该关键点的自适应卷积，并回归关键点的位置。（采用多分支独立回归结构，有效提高精度）

七、具体实现

原理解释：
给定输入的图片I，提出一种算法DEKR（Disentangled Keypoint Regression），直接回归得到图片中每个人物的关键点。一个人身上有17个关键点。

之前自下而上的算法处理是，一个人身上的17个关键点，用一个网络分支进行得到。本文是一个人身上的17个关键点，分别用17个分支得到。

用单个分支来得到一个人身上的17个关键点原理是，对于主干网络输出的特征图X，X中的每个像素q，我们的单分支网络会得到该像素q到17个关键点的偏移向量Oq。那么对X中的所有像素进行处理时，我们会得到许多个Oq。再对这么多个Oq进行处理后，即可得到17个关键点的位置。但是呢，这种方法回归出的关键点位置不够准确。

因此，提出一个关键点位置的回归使用一个分支。原理是，将主干网络输出的特征图划分成17个部分X1,、X2…X17，每个部分用于得到各自的关键点位置。对X1中的某个像素q，此时分支得到该像素到区域1中几个点的偏移向量，只不过这几个点都在关键点1附近。因此，分支对X1处理后的结果是，X1中所有像素到区域1中几个点的偏移向量，就像图4中的b-e。其他分支处理结果类似。

网络处理过程：
主干网络采用HRNet，用于提取图片的特征图，供后面多分支结果使用。对于主干网络输出的特征图，划分成17个分区，各分区互不重叠。再分别用17个分支进行处理，回归出17个关键点。
每个分支由2个自适应卷积和1个正常1*1卷积组成。2个自适应卷积，可以从分区中学习一个关键点的表示；1×1卷积回归每个关键点的2D偏移量。
在这里插入图片描述

1.网络怎么关注各个关键点所在的区域？

答：自适应卷积

2.网络如何回归各个关键点的位置？

答：多分支独立回归，即每个关键点的回归对应了一个分支。

3.自适应卷积的实现原理？

答：以33卷积为例，正常卷积是特征图中33方块和卷积核对应相乘，此时图像中的33方块是连续的。而自适应卷积中，特征图的33方块不是连续的，具体取哪9个位置的值，是自适应的。通过逐像素空间变换网络，可以生成一个22矩阵Aq和一个21平移向量t，通过公式可以生成特征图中9个待取值的位置索引，以此来与卷积核进行卷积操作。

1.对于输入特征图中的每个像素而言，生成对于的矩阵和向量，并以此计算33方块中9个值的位置索引：

Gt表示正常33方块在输入特征图中的位置索引。（相对待处理像素q位置而言）

2.自适应卷积计算：
在这里插入图片描述
q表示当前待处理像素在特征图中的2D位置。

八、实现细节

九、实验

1.数据集

（1）COCO
（2）CrowdPose

2.评估指标

3.实验结果

十、论文高光

本文认为要精确回归出关键点位置，需要关注各个关键点所在的区域，因此提出自适应卷积来聚焦各个关键点所在区域。
为了能更好地回归出各个关键点的位置，采用多分支独立回归网络，每个关键点，用一个分支结构进行关键点的回归。
两者结合，在不损失效率的情况下，大幅提高的人体姿态估计的精度。

十一、不足之处

十二、个人看法

视觉患者leon

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
human pose estimation-DEKR2021CVPR

一、基本任务给定一张图像，预测出图像中每个人的关键点位置。即定位关键点，并判断关键点属于哪个person。（图中每个人的关键点为17个）二、研究意义人体姿态估计应用广泛，包括动作识别、行人跟踪、人机交互、智能照片编辑等三、主要方法注：研究人体关键点之间的几何约束和结构关系，可以提高性能。1.top-down自上而下（1）思路：两阶段，首先检测人，然后对每个检测到的人进行单人姿态估计。**（2）优点和缺点：**优点是精度更高，缺点是效率更低，速度慢。注：改进思路：从热图中定位关键点，细化姿
复制链接

扫一扫