AnchorCrafter：中科院联合腾讯推出的AI虚拟主播带货视频制作技术

本文链接：https://blog.csdn.net/qq_19841021/article/details/144223760

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

公众号: 蚝油菜花 - AnchorCrafter

AnchorCrafter是基于扩散模型的智能视频制作系统，专门用于自动生成具有高保真度的主播风格产品推广视频。该系统通过整合人-物交互（HOI）技术到姿态引导的人体视频生成中，实现了对物体外观和运动控制的高度还原，以及对复杂人物-物体交互的有效管理。

AnchorCrafter采用了HOI-appearance perception和HOI-motion injection技术，以及HOI-region reweighting loss训练目标，增强了物体细节的学习，确保视频生成过程中人物外观和动作的一致性。

视频扩散模型：基于扩散模型架构，使用扩散UNet和变分自编码器（VAE）处理视频帧，将视频序列编码到潜在空间，从噪声中重建高质量的视频帧。
HOI-外观感知（HOI-appearance perception）：
- 多视角特征融合：使用多视角物体参考图像来提取物体的外观特征，增强模型对物体形状和纹理的识别能力。
- 人-物双适配器：基于替换UNet中的交叉注意力层，实现人物和物体特征的更好分离，避免外观纠缠。
HOI-运动注入（HOI-motion injection）：
- 物体轨迹控制：使用深度图作为输入，基于轻量级卷积网络处理深度信息，控制视频中物体的运动轨迹。
- 互遮挡处理：结合3D手部网格输入，处理人物手部与物体交互时的遮挡问题，确保交互的自然性和准确性。
HOI区域重加权损失（HOI-region reweighting loss）：在训练过程中，增加手部-物体交互区域的权重，让模型更加关注这些区域，提高物体细节的学习和生成质量。