NeurIPS 2023 | 首个人体动捕大模型面世!SMPLer-X:横扫七大榜单

摘要 · 看点

人体全身姿态与体型估计(EHPS, Expressive Human Pose and Shape estimation)虽然目前已经取得了非常大研究进展,但当下最先进的方法仍然受限于有限的训练数据集。

最近,来自南洋理工大学S-Lab、商汤科技、上海人工智能实验室、东京大学和IDEA研究院的研究人员首次提出针对人体全身姿态与体型估计任务的动捕大模型SMPLer-X。该工作使用来自不同数据源的多达450万个实例对模型进行训练,在7个关键榜单上均刷新了最佳性能。

SMPLer-X除了常见的身体动作捕捉,还能输出面部和手部动作,甚至对体型做出估计。

论文名称:SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation

b2f51ed66e11810ea94648cb08a74f1c.png

17d8dd106986eb104122710bbbf051cb.png

凭借大量数据和大型模型,SMPLer-X在各种测试和榜单中表现出强大的性能,即使在没有见过的环境中也具有出色的通用性:

1. 在数据扩展方面,研究人员对32个3D人体数据集进行了系统的评估与分析,为模型训练提供参考;

2. 在模型缩放方面,利用视觉大模型来研究该任务中增大模型参数量带来的性能提升;

3. 通过微调策略可以将SMPLer-X通用大模型转变为专用大模型,使其能够实现进一步的性能提升。

总而言之,SMPLer-X探索了数据缩放与模型缩放(图1),对32个学术数据集进行排名,并在其450万个实例上完成了训练,在7个关键榜单(如AGORA、UBody、EgoBody和EHF)上均刷新了最佳性能。

3d6b2b255af63d43e15431db4600c4df.png

Figure1. 大数据量和模型参数量在降低关键榜单(AGORA、UBody、EgoBody、3DPW 和 EHF)的平均主要误差(MPE)方面都是有效的

现有3D人体数据集的泛化性研究

51365996e2bf569b82564f05875646c2.png

研究人员对32个学术数据集进行了排名:为了衡量每个数据集的性能,需要使用该数据集训练一个模型,并在五个评估数据集上评估模型:AGORA、UBody、EgoBody、3DPW和EHF。表1中还计算了平均主要误差(Mean Primary Error, MPE),以便于在各个数据集之间进行简单比较。

从数据集泛化性研究中得到的启示

849978b2dd9df09c16d83209a80b667f.png

从大量数据集的分析(图3)中,可以得出以下四点结论:

1. 关于单一数据集的数据量,10万个实例数量级的数据集用于模型训练可以得到较高的性价比;

2. 关于数据集的采集场景,In-the-wild数据集效果最好,如果只能室内采集,需要避免单一场景以提升训练效果;

3. 关于数据集的采集,数据集排名前三中有两个是生成数据集,生成数据近年来展现出了强大的性能;

4. 关于数据集的标注,伪标签的数据集在训练中也发挥了至关重要的作用。

动捕大模型的训练与微调

663e1bad861d054e878f2e207177c61b.png

当前最先进的方法通常只使用少数几个数据集(例如,MSCOCO、MPII和Human3.6M)进行训练,而这篇文章中探讨使用了更多数据集。在始终优先考虑排名较高的数据集的前提下使用了四种数据量:作为训练集的5、10、20和32个数据集,总大小为75万、150万、300万和450万实例。除此之外,研究人员也展示了低成本的微调策略来将通用大模型适应到特定场景。

dbfaf5ee5325b6aedad8bff6455449f4.png

4a92c7f926dceac114e328e655218e59.png

f1e03bd48536f06127af223924b616ef.png

上表中展示了部分主要测试,如AGORA测试集(表3)、AGORA验证集(表4)、EHF(表5)、UBody(表6)、EgoBody-EgoSet(表7)。此外,研究人员还在另外两个基测试上评估了大模型的泛化性:ARCTIC和DNA-Rendering。

研究人员希望SMPLer-X能带来超出算法设计的启发,并为学术社区提供强大的全身人体动捕大模型。代码和预训练模型都已开源,更多详情请访问项目主页。

ba6df6c221c24a098d6728418a6c45f8.gif

结果展示

863909d51302270cd247fc1df3f175c8.gif

334964bb1f0b6aeaf7104646140d0b67.gif

7a58fc899f9bfb3d0c8edb13b52c5c2b.gif

08544ba4ceabc3f20cdad7c07fe7a3fd.gif

f00128c9f5dc729dbfeeb99b939a3243.gif

bdc041b95826c822252aab762946a28d.gif

ab4174ac79d52b446b11b2bdd8314f25.gif

f7b6765552305f4ed6d02cabca29e70b.gif

相关资料

数据集和代码已开源,欢迎各位同学使用和交流。

01

论文地址:

https://arxiv.org/abs/2309.17448

02

项目主页:

https://caizhongang.github.io/projects/SMPLer-X

本文转载自商汤学术。

525aba7afe50340c610d14230baf3002.jpeg

END

欢迎加入「动作捕捉交流群👇备注:捕捉

cc30f96c1c9ec8b7c7cb72f40e32bccb.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值