Inference Stage Optimization for Cross-scenario 3D Human Pose Estimation

Inference Stage Optimization for Cross-scenario 3D Human Pose Estimation

论文标题

Inference Stage Optimization for Cross-scenario 3D Human Pose Estimation

论文来源

NeurIPS 2020,
https://papers.nips.cc/paper/2020/hash/1943102704f8f8f3302c2b730728e023-Abstract.html

1 背景梳理

3D人体姿态估计任务的目标是根据图像获得人体关节点的空间坐标位置,与2D人体姿态估计相比,由于数据标注的难度更大,因此3D人体姿态估计任务的数据集规模较小,包含的人物、背景、动作、相机角度等要素不够多样,在跨场景情况下泛化性较差。现有的提高模型泛化能力的方法主要有数据增强[1,2]、引入先验信息[3]、分别处理2D和深度特征[4]、引入对抗学习机制[5,6]这几类方法。但是当训练与测试场景区别很大时,这些方法仍然能力有限。本文的独特之处是提出了使用推断时优化(Inference Stage Optimization, ISO)的方法,利用自监督学习在无标注的单一测试样本上进行优化,大大提高了模型的泛化能力。

2 论文贡献

1)算法思想

使用ISO的方法,在测试阶段针对单独的样本进行优化,并利用自监督学习提供ISO所需的监督信息。

2)算法设计

网络结构上利用了共享的特征提取器和自监督与全监督两个Head,将自监督任务和全监督任务在一定程度上解耦;设计了两种自监督学习的方法用于ISO。同时本文的算法可以直接扩展到在线学习的场景,用于处理视频数据。

3)实验效果

使用Human3.6M作为训练集,MPI-INF-3DHP和3DPW作为测试集,PCK和MPJPE指标均超过SOTA。而且,多个分析模型预测结果分布的实验均表明ISO方法的预测结果更接近测试集的真实分布。

3 方法

整体结构和训练、推断方法

由于2D人体姿态估计的泛化性能较好,因此本文假定以准确的2D坐标为输入,预测3D坐标。模型的整体结构如下图,其中SSL表示自监督学习(self supervised learning),FSL表示全监督学习(fully supervised learning)。模型分为三个部分:共用的特征提取器(shared feature extractor,下称SFE),SSL head和FSL head。

模型的运行分为三个阶段,第一阶段在训练集上训练,全监督约束作用于FSL head的输出,自监督约束作用于SSL head的输出,自监督约束的具体形式将在后文展开;第二、三阶段是测试阶段,对于一个2D坐标输入样本,第二阶段利用该样本使用自监督损失优化SFE和SSL head,第三阶段继承第二阶段优化过的SFE的参数和第一阶段的FSL head的参数,给出预测结果。需要注意的是,对每个测试sample,网络参数都是以第一阶段学习后的参数为初始状态的。扩展到在线学习的情况,对于视频序列中的每一帧,都继承前一帧优化后的参数。
模型的细节结构上,主要采用了带有残差连接的MLP,具体结构可查阅论文。

自监督损失

在人体姿态相关的任务上使用与视角、投影有关的自监督方法并不罕见,本文设计了两种自监督方法:

  1. 对抗损失
    如下图所示,对输入的2D姿态,模型预测得到3D姿态,将其随机转动视角并投影到2D平面上得到一个新的2D姿态,两个2D姿态可分别认为是real和fake的。如果模型的预测准确,那么fake姿态的分布应与real非常接近,这里使用一个额外的Discriminator作用于两个2D姿态,可构造对抗损失。

  2. Cycle Consistency
    如下图所示,基本思想是利用多次转动视角和投影,如果模型预测完全准确,最终得到的红圈中的两对姿态应是相同的,此处利用一致性损失作用于这两对姿态即可。

4 实验结果

基本结果

这里仅简单展示3DHP上的结果,需要注意的是许多前人工作并未给出测试时一些数据处理的细节,但是总体上看本文的ISO方法的效果十分不错。

对模型预测结果分布的分析

本文使用Human 3.6M和3DHP数据集的3D pose训练了一个二分类器,用于区分一个3D pose是来自于这两个数据集中的哪一个,该分类器几乎可以完美分类。利用该分类器,本文分析了ISO方法的预测结果的分布。对于没有ISO机制的baseline方法(同样是在Human 3.6M上训练,3DHP上测试),仅有52.6%的预测结果被分类器认为是来自3DHP数据集,而本文方法的预测结果有83.4%被分类器认为来自3DHP数据集。说明ISO方法预测结果更接近3DHP数据集的真实分布。

此外本文统计了三个身体比例的统计量,如下图所示,其中红线表示真实数据比例,L R分别表示左肢和右肢,可以看出ISO方法的结果更接近真实分布,而且左右肢的曲线重合度更高,说明其学习到了关于人体对称性的信息。

总结

本文最具创新性的一点是使用推断时优化的方法解决人体姿态估计的跨场景泛化性问题,而且该方法能自然地扩展到在线学习上。对于自监督任务的设计上,本文的思路是比较常见的。此外,文章实验分析部分详尽地分析了ISO方法对预测结果分布的影响。但是,本文没有对SSL Head和FSL Head的解耦作用进行探讨,应该可以设计实验,分析只使用一个统一网络,同时进行这两种任务时的效果。

参考文献

[1] DushyantMehta, SrinathSridhar, OleksandrSotnychenko, HelgeRhodin, MohammadShafiei, Hans-Peter Seidel, Weipeng Xu, Dan Casas, and Christian Theobalt. Vnect: Real-time 3d human pose estimation with a single rgb camera. ACM Trans. on Graphics, 36(4):44, 2017. 1
[2] WenzhengChen, HuanWang, YangyanLi, HaoSu, ZhenhuaWang, ChangheTu, DaniLischinski, Daniel Cohen-Or, and Baoquan Chen. Synthesizing training images for boosting human 3d pose estimation. In 3DV, 2016. 1, 2
[3] Xingyi Zhou, Qixing Huang, Xiao Sun, Xiangyang Xue, and Yichen Wei. Towards 3d human pose estimation in the wild: a weakly-supervised approach. In ICCV, 2017. 1, 3, 6, 8
[4] Xiao Sun, Jiaxiang Shang, Shuang Liang, and Yichen Wei. Compositional human pose regression. In ICCV, 2017. 1, 2, 3
[5] Wei Yang, Wanli Ouyang, Xiaolong Wang, Jimmy Ren, Hongsheng Li, and Xiaogang Wang. 3d human pose estimation in the wild by adversarial learning. In CVPR, 2018. 1, 3, 6, 7
[6] Dylan Drover, Rohith MV, Ching-Hang Chen, Amit Agrawal, Ambrish Tyagi, and Cong Phuoc Huynh. Can 3d pose be learned from 2d projections alone? In ECCVw, 2018. 1, 2, 3, 4

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值