小红书论文刷新 SOTA：人体动作预测再升级，能精准到指尖

小红书技术REDtech

已于 2024-01-31 19:18:10 修改

阅读量1.4k

点赞数 13

文章标签： AAAI 虚拟现实人机交互人体动作预测 3D

于 2024-01-31 19:17:02 首次发布

本文链接：https://blog.csdn.net/REDtech_1024/article/details/135960618

版权

想象一下，你在玩一款 VR 游戏，准备伸手拿起一个虚拟杯子喝水。‍‌‌‎‎

在传统的交互系统中，这通常需要你按下控制器上的特定按钮。但如果游戏集成了 EAI 框架，这一过程将变得无比自然。当你的手缓缓接近虚拟杯子时，系统会敏锐地预测出你的未来手部动作，无需任何操作，游戏中的“你”便会流畅地模拟出精细的手部抓取动作，游戏引擎也会提前对你的动作行为做出响应。

这种无缝的交互体验，将会提升游戏中人-人、人- NPC 交互的实时性和准确性，极大地提升游戏沉浸感。

‍‌‌‎

什么是 EAI 框架？全称是编码-对齐-交互（Encoding-Alignment-Interaction）框架，由小红书创作发布团队在 AAAI 2024 上创新提出。该框架用于预测未来全身人体动作，尤其擅长手部细微动作的预测。‍‌‌‎‎

EAI 框架的应用远不止于此。它能够理解并预测用户的动作意图，无论是在艺术表演中同步舞者的动作，创造出与音乐和视觉效果和谐融合的动态艺术，还是在智能家居中自动响应你的需求，或是在医疗康复领域指导患者正确执行运动，避免潜在伤害。它甚至能够预测潜在的安全威胁，如在拥挤场所避免踩踏事件。

实验结果表明：EAI 框架在多个大规模基准数据集上取得了最先进的预测性能（SOTA）。它有效地处理了身体和手部动作之间的异质性和交互性，实现了全身动作预测的高质量输出。这一突破性的技术，预示着未来在人机交互、虚拟现实以及更广泛的智能系统中，将有无限的可能性等待着被探索。

‍‌‌‎‎

人体动作预测（Human Motion Forecasting）‍‌‌‎‎，即预估未来一段时间内的人类行为，正成为连接人类行为与智能系统的关键桥梁。在人机交互（HRI）、虚拟现实（VR）和游戏动画（GA）等领域，这一任务至关重要。然而，现有研究通常集中在预测人体主要关节的运动，却忽略了手部精细动作，而这些动作在沟通和交互中至关重要。

在人机交互场景中，机器人需要准确预测人类未来动作以实现有效协作，但现有模型未能充分捕捉手部精细动作，这直接影响了对人类意图和行为的理解。此外，人体各部分间的协作和交付，如喝水、鼓掌等复杂交互模式，也未被现有预测模型充分捕捉，这限制了预测的准确性和表达性。

‍‌‌‎‎

为解决上述挑战，我们首先提出了一种全新范式：全身人体动作预测任务，即同时预测身体和手部所有关节的未来活动。通过这种联合预测，可以更准确地捕捉人类行为的全貌，从而在人机交互等应用中提供更自然的交互体验。这种全身运动预测不仅包括身体的主要动作，还细致地考虑了手部的精细运动，以理解人类行为的意图和情感表达。

进一步地，为实现面向全身人体关节的细粒度动作预测的目标，‍‌‌‎‎我们重点提出了编码-对齐-交互（Encoding-Alignment-Interaction，EAI）框架‍‌‌‎‎。EAI 框架主要包括以下两个核心组成部分：