human pose estimation-DEKR2021CVPR

一、基本任务

给定一张图像,预测出图像中每个人的关键点位置。即定位关键点,并判断关键点属于哪个person。(图中每个人的关键点为17个)
在这里插入图片描述

二、研究意义

人体姿态估计应用广泛,包括动作识别、行人跟踪、人机交互、智能照片编辑等

三、主要方法

注:研究人体关键点之间的几何约束和结构关系,可以提高性能。

1.top-down自上而下

(1)思路:两阶段,首先检测人,然后对每个检测到的人进行单人姿态估计。
**(2)优点和缺点:**优点是精度更高,缺点是效率更低,速度慢。

注:改进思路:从热图中定位关键点,细化姿态估计,数据增强,结合检测、分割和姿态估计的多任务学习架构,以及处理遮挡问题

2.bottom-up 自下而上

**(1)思路:**单阶段,直接回归出每个人关键点的位置。(或者是:先回归出图像中所有人的关键点位置,然后再将关键点按人分组)
**(2)优点和缺点:**优点是效率更高,速度快,缺点是精度不高。

四、当前问题

寻求一种算法,在解决人体姿态估计时,拥有精度和效率两种优势。

五、解决思路

作者认为,在自下而上的方法中,要想精确回归出图像中人物的关键点位置,需要重点关注关键点所在的区域,从关键点区域中学习到关键点位置。即想要回归出哪个关键点,我们就着重关注该关键点所在的区域。

(之前的自下而上方法是,对于图像中人物的每个像素,我们都回归出该像素位置到各个关键点位置的偏移量,因此这种方法没有关注各个关键点本身所在的区域)

六、方法概述

1.本文采用自适应卷积,去激活关键点所在区域的像素。然后从这些激活的像素中进行学习,从而得到对应关键点位置。这样做是让我们集中关注各个关键点所在区域。(采用自适应卷积后,有效提高精度

2.将一个关键点的回归与其他关键点分离。即通过多分支结构,采用单独的回归方案,每个分支学习一个关键点的表示,该分支具有专用于该关键点的自适应卷积,并回归关键点的位置。(采用多分支独立回归结构,有效提高精度

七、具体实现

原理解释:
给定输入的图片I,提出一种算法DEKR(Disentangled Keypoint Regression),直接回归得到图片中每个人物的关键点。一个人身上有17个关键点。

之前自下而上的算法处理是,一个人身上的17个关键点,用一个网络分支进行得到。本文是一个人身上的17个关键点,分别用17个分支得到。

用单个分支来得到一个人身上的17个关键点原理是,对于主干网络输出的特征图X,X中的每个像素q,我们的单分支网络会得到该像素q到17个关键点的偏移向量Oq。那么对X中的所有像素进行处理时,我们会得到许多个Oq。再对这么多个Oq进行处理后,即可得到17个关键点的位置。但是呢,这种方法回归出的关键点位置不够准确。

因此,提出一个关键点位置的回归使用一个分支。原理是,将主干网络输出的特征图划分成17个部分X1,、X2…X17,每个部分用于得到各自的关键点位置。对X1中的某个像素q,此时分支得到该像素到区域1中几个点的偏移向量,只不过这几个点都在关键点1附近。因此,分支对X1处理后的结果是,X1中所有像素到区域1中几个点的偏移向量,就像图4中的b-e。其他分支处理结果类似。

网络处理过程:
主干网络采用HRNet,用于提取图片的特征图,供后面多分支结果使用。对于主干网络输出的特征图,划分成17个分区,各分区互不重叠。再分别用17个分支进行处理,回归出17个关键点。
每个分支由2个自适应卷积和1个正常1*1卷积组成。2个自适应卷积,可以从分区中学习一个关键点的表示;1×1卷积回归每个关键点的2D偏移量。
在这里插入图片描述

1.网络怎么关注各个关键点所在的区域?

答:自适应卷积

2.网络如何回归各个关键点的位置?

答:多分支独立回归,即每个关键点的回归对应了一个分支。

3.自适应卷积的实现原理?

答:以33卷积为例,正常卷积是特征图中33方块和卷积核对应相乘,此时图像中的33方块是连续的。而自适应卷积中,特征图的33方块不是连续的,具体取哪9个位置的值,是自适应的。通过逐像素空间变换网络,可以生成一个22矩阵Aq和一个21平移向量t,通过公式可以生成特征图中9个待取值的位置索引,以此来与卷积核进行卷积操作。

1.对于输入特征图中的每个像素而言,生成对于的矩阵和向量,并以此计算33方块中9个值的位置索引:
在这里插入图片描述
在这里插入图片描述
Gt表示正常3
3方块在输入特征图中的位置索引。(相对待处理像素q位置而言)

2.自适应卷积计算:
在这里插入图片描述
q表示当前待处理像素在特征图中的2D位置。

八、实现细节

九、实验

1.数据集

(1)COCO
(2)CrowdPose

2.评估指标

3.实验结果

十、论文高光

本文认为要精确回归出关键点位置,需要关注各个关键点所在的区域,因此提出自适应卷积来聚焦各个关键点所在区域。
为了能更好地回归出各个关键点的位置,采用多分支独立回归网络,每个关键点,用一个分支结构进行关键点的回归。
两者结合,在不损失效率的情况下,大幅提高的人体姿态估计的精度。

十一、不足之处

十二、个人看法

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值