下载PDF或查看论文,请点击:
摘要
实时交互式视频聊天肖像越来越被认为是未来趋势,这主要得益于文本和语音聊天技术的显著进步。然而,现有的方法主要集中于实时生成头部动作,但难以产生与头部动作同步的身体动作。此外,实现对说话风格和面部表情细微差别的精细控制仍然是一个挑战。为了解决这些局限性,我们提出了一种新颖的样式化实时肖像视频生成框架,它能够实现从头部说话到上半身交互的表达丰富和灵活的视频聊天。我们的方法包括以下两个阶段。第一阶段涉及高效的分层运动扩散模型,该模型基于音频输入考虑了显式和隐式的运动表示,能够生成具有风格控制和头部与身体动作之间同步的多样化面部表情。第二阶段旨在生成包括手势在内的上半身动作的肖像视频。我们将显式的手部控制信号注入生成器以产生更详细的手部动作,并进一步进行面部精炼以增强肖像视频的整体真实性和表现力。此外,我们的方法支持在4090 GPU上以最大512 * 768分辨率和高达30fps的帧率进行高效和连续的上半身肖像视频生成,支持实时交互式视频聊天。实验结果证明了我们的方法能够生成具有丰富表现力和自然上半身动作的肖像视频。
一句话总结
本文提出了一种基于分层运动扩散模型的实时风格化肖像视频生成方法,通过音频输入生成具有丰富表情和自然上肢动作的肖像视频。
问题1:这篇论文想要解决什么具体问题?
- 问题背景:现有的实时肖像视频生成方法主要关注头部动作,但难以同步生成匹配的身体动作。同时,对说话风格和面部表情的精细控制也仍然是一个挑战。
- 现有方案不足:现有方法在实时性、精细表情控制、身体动作同步和细节生成方面存在不足。
- 研究目标:提出一种新的框架,实现从头部到上肢的交互式视频聊天,生成具有丰富表情和自然上肢动作的肖像视频。
问题2:论文的核心创新点是什么?
- 技术创新:提出了分层运动扩散模型,考虑显式和隐式运动表示,生成具有风格控制和头部与身体动作同步的多样化面部表情。
- 方法改进:设计了混合控制融合生成模型,利用显式关键点进行直接和可编辑的面部表情生成,并引入基于显式信号的隐式偏移以捕捉不同风格中的面部变化。
- 优势:与现有方法相比,该方法在表情控制、动作同步、细节生成和实时性方面具有显著优势。
问题3:实验结果如何验证了方法的有效性?
- 关键实验:通过自驱动重演设置验证了视频生成模型在生成上肢视频中的有效性,并与现有方法进行了比较。
- 性能提升:在PSNR、SSIM、LPIPS、FID、FVD等指标上均优于现有方法,特别是在手部动作生成方面表现突出。
- 对比结果:与基于扩散的方法相比,在相同分辨率下,实现了更高的帧率,同时保持了高质量的视频生成。
问题4:这个研究的实际应用价值是什么?
- 应用场景:适用于虚拟形象、直播和增强现实等多种场景。
- 实施建议:可根据具体应用场景选择合适的子模块组合,确保高效和高质量的实时视频聊天体验。
- 局限与展望:未来可进一步探索更高效的模型和算法,以支持更复杂的动作和更高的分辨率。