小红书论文刷新 SOTA:人体动作预测再升级,能精准到指尖

想象一下,你在玩一款 VR 游戏,准备伸手拿起一个虚拟杯子喝水。‍​​‌​‌​‎‎

在传统的交互系统中,这通常需要你按下控制器上的特定按钮。但如果游戏集成了 EAI 框架,这一过程将变得无比自然。当你的手缓缓接近虚拟杯子时,系统会敏锐地预测出你的未来手部动作,无需任何操作,游戏中的“你”便会流畅地模拟出精细的手部抓取动作,游戏引擎也会提前对你的动作行为做出响应。

这种无缝的交互体验,将会提升游戏中人-人、人- NPC 交互的实时性和准确性,极大地提升游戏沉浸感。

‍​​‌​‌​‎

什么是 EAI 框架?全称是编码-对齐-交互(Encoding-Alignment-Interaction)框架,由小红书创作发布团队在 AAAI 2024 上创新提出。该框架用于预测未来全身人体动作,尤其擅长手部细微动作的预测。‍​​‌​‌​‎‎

EAI 框架的应用远不止于此。它能够理解并预测用户的动作意图,无论是在艺术表演中同步舞者的动作,创造出与音乐和视觉效果和谐融合的动态艺术,还是在智能家居中自动响应你的需求,或是在医疗康复领域指导患者正确执行运动,避免潜在伤害。它甚至能够预测潜在的安全威胁,如在拥挤场所避免踩踏事件。

实验结果表明:EAI 框架在多个大规模基准数据集上取得了最先进的预测性能(SOTA)。它有效地处理了身体和手部动作之间的异质性和交互性,实现了全身动作预测的高质量输出。这一突破性的技术,预示着未来在人机交互、虚拟现实以及更广泛的智能系统中,将有无限的可能性等待着被探索。

‍​​‌​‌​‎‎ 

人体动作预测(Human Motion Forecasting)‍​​‌​‌​‎‎,即预估未来一段时间内的人类行为,正成为连接人类行为与智能系统的关键桥梁。在人机交互(HRI)、虚拟现实(VR)和游戏动画(GA)等领域,这一任务至关重要。然而,现有研究通常集中在预测人体主要关节的运动,却忽略了手部精细动作,而这些动作在沟通和交互中至关重要。

在人机交互场景中,机器人需要准确预测人类未来动作以实现有效协作,但现有模型未能充分捕捉手部精细动作,这直接影响了对人类意图和行为的理解。此外,人体各部分间的协作和交付,如喝水、鼓掌等复杂交互模式,也未被现有预测模型充分捕捉,这限制了预测的准确性和表达性。

‍​​‌​‌​‎‎

为解决上述挑战,我们首先提出了一种全新范式:全身人体动作预测任务,即同时预测身体和手部所有关节的未来活动。通过这种联合预测,可以更准确地捕捉人类行为的全貌,从而在人机交互等应用中提供更自然的交互体验。这种全身运动预测不仅包括身体的主要动作,还细致地考虑了手部的精细运动,以理解人类行为的意图和情感表达。

进一步地,为实现面向全身人体关节的细粒度动作预测的目标,‍​​‌​‌​‎‎我们重点提出了编码-对齐-交互(Encoding-Alignment-Interaction,EAI)框架‍​​‌​‌​‎‎。EAI 框架主要包括以下两个核心组成部分:

  • 跨上下文对齐(cross-context-alignment,XCA):用于对齐不同人体组件的潜在特征,消除异质性‍​​‌​‌​‎‎
  • 跨上下文交互(cross-context-interaction,XCI):专注于捕捉人体组件间的上下文交互,提高动作预测的准确性‍​​‌​‌​‎‎

通过在新引入的大型数据集上的广泛实验,EAI 框架在 3D 全身人体动作预测方面取得了最先进的性能,证明了其在捕捉人类动作细微差别方面的有效性。这些实验结果不仅展示了 EAI 框架在预测复杂人类动作方面的优越性,还为未来的人机交互和虚拟现实等领域的应用提供了新的视角和可能性。

‍​​‌​‌​‎

EAI 算法流程图‍​​‌​‌​‎‎

如图所示,EAI 框架主要涉及以下三个核心步骤:

  • ‍​​‌​‌​‎‎Encoding ‍​​‌​‌​‎‎:通过离散余弦变换(DCT) 和动态图卷积神经网络&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小红书技术REDtech

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值