ECCV 2024 | 数字人也懂惯性定律!上海AI Lab团队提出3D人体姿态序列建模

ee610d8d620396591c98f671713d02b3.gif

©PaperWeekly 原创 · 作者 | Yifan Zhan

单位 | 上海人工智能实验室、东京大学

研究方向 | 3D视觉、神经渲染、人体数字重建

ee5a5f4575d47d678d7c6e312f652895.png

论文标题:

Within the Dynamic Context: Inertia-aware 3D Human Modeling with Pose Sequence

论文地址:

https://arxiv.org/abs/2403.19160

项目地址:

https://github.com/Yifever20002/Dyco

bcb6b452bc0092df6803b084dd2be63a.gif

▲ 与 HumanNeRF 相比,Dyco 能正确模拟由惯性导致的裙摆运动变化

91f808ac657617d21bdd1f2e516ab85e.gif

▲ Dyco 可以模拟不同速度下的运动,如低速裙摆下垂,高速裙摆飘起

113de0f7f43edf6ab88825fe251898f9.png

研究背景

随着 NeRF(Neural Radiance Fields)等一众深度神经渲染方法的兴起,传统方法如基于 SMPL 的人体重建获得了更高的渲染质量。然而,现有的人体 NeRF 往往依赖预提取的 3D-SMPL 模型进行逐帧训练,忽略了人体运动上下文导致的外表变化(如旋转导致的裙摆飘动)。这种逐帧训练模式为人体建模引入了单帧姿态控制下的外表歧义,即:相近的人体姿态输入,可能对应截然不同的两种外表

我们可以关注下图来充分理解上述的歧义。在一段人体视频观测中(动作为裙摆随着旋转飘起而后落下),我们获得了四帧外表信息,分别对应了预提取的四帧 SMPL 姿态(Observation)。注意到第三帧和第四帧具有相近的人体姿态,而外表却天差地别(裙摆飘起和落下)。

使用传统的人体 NeRF,在输入仅由人体姿态控制时,将会得到相似的渲染结果(Rendering 中的 Baseline 结果)。一种直观的解决思路是引入额外的控制量来解开歧义(如时间戳),但这种额外输入将使得泛化到新姿态上变得非常困难。

2fef59be09328110ca388aa6eee0a54b.png

如何仅通过现有的 SMPL 输入解开外表歧义,达到高质量渲染,便成了值得研究的问题。在本文中,我们提出 Dyco通过姿态序列而非单帧姿态来控制人体建模,从而在不引入额外输入的前提下顺利解决了单帧姿态下的外表歧义(我们的结果对应上图 Rendering 的 Ours)。

1139fad867e6f039587fdae990d77df0.png

惯性歧义来源和解决思路

SMPL 模型仅能建模人体形状和动作,却无法建模人体外部衣料的外观。因此,仅依赖单帧 SMPL 模型姿态的建模仍然存在固有的外表歧义,无法充分理解衣料的外表变化。我们可以回忆牛顿惯性定律所述:惯性是物体具有保持原来运动状态的性质

事实上,不同的速度和加速度模式下,人体在相同姿态下外表均会有不同程度的惯性表现,这是现有的人体 NeRF 无法理解的。我们将单帧姿态控制下的外表歧义归咎为系统缺乏对人体惯性的感知(下文将统一称为惯性歧义)。

虽然单帧 SMPL 姿态无法感知惯性,但是 SMPL 姿态序列有良好的惯性感知能力,也能够充分解决惯性歧义。具体地,两帧相邻 SMPL 姿态可以获得速度信息,而多帧 SMPL 姿态可以获得加速度信息,间接反映系统惯性。

因此,我们拟使用 SMPL 姿态序列而非单帧姿态来对人体进行建模,使其获得较好的解歧义能力。在网络设计上,也许输入的 SMPL 单帧姿态相同,但当外表不同时,往往意味着一段时间前的 SMPL 姿态序列不同,因此将姿态序列作为输入更能让网络感知到惯性。

b1cc3bb3011cfaad6012c46ec61399e6.png

解决方法

3.1 姿态序列建模

我们注意到,和惯性相关的物理量如速度和加速度均只与相邻帧姿态变化量有关,因此我们将姿态()序列建模成姿态变化量()的序列。具体地,我们定义一个长度为 , 序列步长为 以及 序列步长为 的 序列为:

0862ca14e60d51eada9219ce87abf51e.png

其中, 是一个 3K + 3 维向量,代表两个姿态之间以轴角形式表示的每个关节的旋转差异以及全局平移差异。由于 只包含局部信息,因此实际使用时我们将这部分内容与当前全局姿态 结合。我们使用结合后的姿态序列信息作为非刚体形变和颜色映射的输入条件,来取代传统人体 NeRF 仅使用 的逐帧建模。

3.2 局部动态上下文编码器

为了进一步提取 中的有效信息并防止过拟合,我们额外提出了局部动态上下文编码器Localized Dynamic Context Encoder)模块。我们从人体运动的基本观察中,大部分衣料的运动只和它们直接附着的运动链有关(如袖子由手部控制,而裙子由腰部控制),因此我们提出运动链引导的衣料控制掩码Kinematically-guided Masking),并将 中与当前点运动链不相关的姿态成分置零。

在空间上,我们将每一组 通过 MLP 降维成 16 维向量,在时间上,我们进一步将 维的特征压缩成 32 维。生成的 32 维 特征与坐标和 结合,并作为后续非刚体形变和颜色映射的输入。下图展示了我们的方法的完整流程。

e8633383144360a8a9dd9d6348eb2e56.png

652e13b33e95faf6020200096b947c0f.png

I3D-Human数据集

目前的多视角人体数据集,如 ZJU-MoCap、PeopleSnapshot 和 Human3.6M,都是在限制速度和紧身服装下采集的,消除了惯性引起的动态效应。这一限制使我们无法测试模型真正解决惯性歧义的能力。

为了解决这一问题,我们提出了一个针对这类问题的全新数据集,名为惯性感知 3D 人体(I3D-Human)数据集。该数据集侧重于捕捉在大致相同姿态下服装外观的变化。

与现有数据集着装相比,我们为被试者穿上宽松的服装,如连衣裙和轻便外套,并进行复杂的加减速运动,如旋转后的突然停止、摆动和袖子的挥动。我们使用 10 台 DJI Osmo Action 相机,并以 100 帧/秒的帧率拍摄,使用音频信号同步。最终处理的数据集记录了来自 6 个动作 id 的总共 10,000 帧的序列。

1ced0e37e975ce19c9cd7420c0e80aac.png

d8070ee7e8f9b24b047b015feebe7c99.png

部分实验结果

5.1 渲染效果

为了比较动态渲染的效果,我们引入了新的评价指标动态运动误差 DME(dynamic motion error),这是一种基于光流的评价指标:

595391a5d6de6b0869da29ec574fb3a8.png

我们在 I3D-Human 数据集上与主流的人体 NeRF 方法进行了比较,结果如下:

a4830321276fdc96beb943ec1774a9e6.png

478c2c9bf3008307c44b684f497b6da8.png

5.2 惯性模拟(速度及加速度)

我们设计新的惯性姿态来验证 Dyco 能够正确建模惯性因素与外观变化之间的关联。

速度方面,我们通过改变 SMPL 姿态的速度(手动修改步长)来创建新的动态速度上下文。我们惊喜地发现,在不同速度模式下(不同 ),Dyco 能渲染出不同的运动效果,如低速裙摆基本垂下,而高速裙摆飘起,这与惯性效应相吻合。

4ec48456928279af5cf2f6c439e1198d.png

加速度方面,我们通过设计一段急停的 SMPL 姿态(强制后半段姿态保持不变)来模拟人突然停止时裙摆后续的运动,创建新的动态加速度上下文。Dyco 同样能自然模拟裙摆从飘起到下落的一系列动作,而传统人体 NeRF 无法做到。

aa620486fac377d2c9bedac6ed0f95a2.png

291407e30eeb29d6061454f2d8c51ce5.png

结尾

在这项工作中,我们介绍了 Dyco,这是一种新颖的人体运动建模方法,结合姿态序列来解决由不同动态上下文引起的惯性歧义问题。我们认为,人体外观不仅受到当前帧姿态的影响,还受到过去运动姿态的影响,而这些影响可以通过姿态序列充分捕捉。

为了减轻在过度依赖姿态序列的过拟合问题,我们设计了一个局部动态上下文编码器。这种方法使我们能够解决由动态上下文引起的惯性歧义,并提高宽松服装下人体的渲染质量。I3D-Human 数据集解决了以往数据集中速度差异过小,衣料过度贴身等问题,并推进了对复杂衣着和速度模式下人体运动的研究。最后,欢迎大家点🌟!

更多阅读

415d931d3813c3c303afb6d9de83c171.png

b8cc82ed7b91c6ee5d4a784a098c807d.png

67600e424d347fd41431a69826f1af4f.png

6db79f70b1ba169c148c90d14a6f1327.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

105b32041660ae7f4452d06c19caccad.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

85734b784da6bcd06a5886494c8849c2.jpeg

  • 23
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值