穿越次元的交响曲:零样本下人——物交互背后的多模态奥秘

人类与物体的每一次互动,既是一场无声的舞蹈,也是物理定律与直觉认知的交织。想象一下,一个人挥动吉他、举起杠铃或执麦演讲,这些场景不仅仅停留在二维图像中,而正悄然在三维世界中演绎出新的可能性。最新的研究提出了一种“零样本”方法:无需依赖昂贵且稀缺的 3D 人—物体交互数据,借助预训练的多模态模型,我们可以生成既具备语义多样性,又符合物理规律的真实交互场景。本文将带领大家走进这一跨越时空、技术与艺术交融的世界。


🌍 从二维到三维:开启人—物交互的零样本探索

传统的 3D 人—物体交互生成常因数据获取困难、成本高昂而陷入单一场景的局限。如今,海量的二维图像、视频以及文本数据为我们打开了一扇全新之门。受 DreamFusion 等方法启发,研究者们发现:通过利用 2D 扩散模型生成图像,再结合预训练的人体姿态提取模型与多视角 3D 对齐算法,我们能够“启迪”出三维交互的端倪。

这种零样本方法,正如在广阔大海中利用星光指引方向般,从远处的二维星辰中捕捉到构建三维世界的灵感。文章中详细描述了如何利用 ControlNet 模型将二维人体关键帧作为条件,实现 temporally consistent 的 2D HOI 图像序列,再通过预训练的姿态估计模型如 TRAM 和 SMPLer-X,将这些帧“提升”成为粗略的 3D 人体关键帧,实现动态交互的初步构造。

在这里插入图片描述

🎨 二维交互灵感:图像与视频的奇妙魔法

人类不仅通过动作表演交互艺术,二维图像和视频也为这种艺术注入了无限生机。论文提出两大模块:

  • 生成二维 HOI 图像
  • 生成二维 HOI 视频

首先,利用经过 ControlNet 调控的 2D 扩散模型,我们能根据文本输入(例如,“一位男士正在弹吉他”)生成一系列连续且具有稳定时序一致性的二维图像,这些图像不仅包含人体的动态姿态,还隐含着物体在空间中的合理摆放。

视频生成方面,当前的 Kling 与 SORA 等模型展示出令人惊讶的视频合成能力。研究人员提出,通过使用文本同时辅以起始帧条件,不仅能更好地控制摄像机视角,还能确保生成的视频中物体与人体的互动区域始终处于关注焦点内。均匀采样关键帧,则为后续 3D 重构提供了坚实基础。

在这里插入图片描述

🧍‍♂️ 人类动作再造:从文本到精准姿态的蜕变

设想一下,一个男士在弹吉他,但最初由文本到动作生成的结果往往缺乏对物体(吉他)存在的充分感知。为了解决这一问题,研究团队在二维 HOI 图像中提取人体姿态,再使用 TRAM 模型提取全局运动、以及 SMPLer-X 对局部运动进行修正。这样一来,由文本生成的初始人体动作不仅在大致运动轨迹上无可挑剔,更在细节上契合与物体的交互需要。

正如两幅立体图像可以构成一个立体影像,这种通过多模型协同得到的“修正”人体姿态,使得人和物的交互更为自然——例如,双手与吉他之间保持良好的接触距离,为后续赋予真实感打下基础。


🔍 物体姿态的魔法:6-DoF 估计与语义对应

人体动作处理好了,关键还在于如何将物体放入这幅画卷中。考虑到 2D HOI 图像与物体模板在几何外观上可能存在差异,论文中提出了通用的类别级物体 6-DoF 估计方法。这一方法采用了两阶段优化流程:

  1. 语义对应提取:利用预训练的 2D 视觉模型(如 DinoV2),提取物体模板与 HOI 图像间的密集特征描述。通过从 24 个视角渲染物体模板,结合双向匹配算法及 RANSAC 筛选出稳健外点,从而求解 Perspective-n-Point(PnP)问题,获得初步的 6-DoF 姿态。

  2. 可微渲染优化:利用 PyTorch3D 构建的可微渲染器进一步细化物体的姿态,通过最小化物体轮廓与深度信息的误差(公式如下),确保生成结果在物理尺度上与人体保持合理关系:

    L s i l = ∣ S − S ^ ∣ + λ o b j e c t ∣ S o − S o ^ ∣ L_{sil} = \left| \mathcal{S} - \hat{\mathcal{S}} \right| + \lambda_{object}\left|\mathcal{S}_o - \hat{\mathcal{S}_o}\right| Lsil= SS^ +λobject SoSo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值