摘要:实时交互式视频聊天肖像正日益被视为未来趋势,这尤其得益于文本和语音聊天技术所取得的显著进展。然而,现有方法主要聚焦于头部动作的实时生成,却难以产生与这些头部动作相匹配的同步身体动作。此外,实现对说话风格和面部表情细微差别的精细控制仍然是一个挑战。为解决这些局限,我们引入了一个用于风格化实时肖像视频生成的新颖框架,该框架支持富有表现力和灵活性的视频聊天,从头部动作扩展到上半身互动。我们的方法包括以下两个阶段。第一阶段涉及高效的分层运动扩散模型,这些模型基于音频输入,同时考虑显式和隐式运动表示,能够生成具有风格控制的多样化面部表情,并实现头部和身体动作的同步。第二阶段旨在生成包含上半身动作(包括手势)的肖像视频。我们向生成器注入显式的手部控制信号,以产生更精细的手部动作,并进一步进行面部细化,以增强肖像视频的整体真实感和表现力。此外,我们的方法支持在4090 GPU上以最高30fps的帧率高效且连续地生成最大分辨率为512*768的上半身肖像视频,支持实时交互式视频聊天。实验结果表明,我们的方法能够生成具有丰富表现力和自然上半身动作的肖像视频。Huggingface链接:Paper page,论文链接:2503.21144
研究背景和目的
研究背景
随着人工智能技术的不断发展,实时互动视频聊天技术正逐渐成为人们日常生活中不可或缺的一部分。特别是近年来,大型语言模型(LLMs)和扩散模型(Diffusion Models)的显著进步,极大地推动了文本和语音聊天技术的发展。然而,尽管在头部动作生成方面取得了显著成果,现有的实时互动视频聊天技术仍面临着诸多挑战。
首先,现有的方法主要聚焦于实时生成头部动作,但对于与头部动作相匹配的同步身体动作的生成却显得力不从心。在实际的视频聊天场景中,仅仅生成头部动作远远不够,自然的上半身动作和手势对于提升用户体验至关重要。因此,如何生成与头部动作同步且自然的上半身动作成为了一个亟待解决的问题。
其次,实现对说话风格和面部表情细微差别的精细控制也是一个巨大的挑战。在视频聊天中,用户往往希望自己的虚拟形象能够准确地表达出自己的情感和意图,这就要求生成系统能够捕捉到说话风格的细微变化以及面部表情的丰富细节。然而,现有的方法在这方面往往表现欠佳,难以满足用户的需求。
最后,实时性和高效性也是实时互动视频聊天技术必须考虑的重要因素。在视频聊天过程中,用户期望能够获得流畅且低延迟的体验,这就要求生成系统能够在保证生成质量的同时,实现高效的实时计算。然而,现有的生成方法往往在计算复杂度和生成质量之间难以取得平衡,难以满足实时性的要求。
针对上述挑战,我们提出了本研究的目的:开发一种新颖的框架,用于生成风格化的实时肖像视频,支持从头部动作到上半身互动的富有表现力和灵活性的视频聊天。该框架将能够生成具有丰富面部表情和自然上半身动作的肖像视频,同时满足实时性和高效性的要求。
研究目的
- 开发高效的分层运动扩散模型:基于音频输入,同时考虑显式和隐式运动表示,生成具有风格控制的多样化面部表情,并实现头部和身体动作的同步。
- 生成包含上半身动作和手势的肖像视频:通过向生成器注入显式的手部控制信号,产生更精细的手部动作,并进一步增强面部细化,以提升肖像视频的整体真实感和表现力。
- 支持实时交互式视频聊天:在高性能GPU上实现高效且连续的生成过程,支持最大分辨率为512*768的上半身肖像视频生成,帧率最高可达30fps,以满足实时视频聊天的需求。
- 提升生成质量和用户体验:通过实验验证所提方法的有效性,生成具有丰富表现力和自然上半身动作的肖像视频,从而提升用户在实时互动视频聊天中的体验。
研究方法
方法概述
我们的研究方法主要包括两个阶段:第一阶段是运动表示学习,通过高效的分层运动扩散模型将音频输入转换为运动表示;第二阶段是视频生成,基于第一阶段生成的运动表示和角色图像,合成高质量的肖像视频。
第一阶段:运动表示学习
- 音频特征提取:使用基于Transformer的语音识别模型从音频输入中提取丰富的语义信息,这些信息将指导唇形和面部表情的生成。
- 分层运动扩散模型:设计了一个分层模型,首先基于音频输入预测面部运动,然后利用预测的面部运动驱动上半身(包括手部)的运动。面部运动通过显式关键点(如眼睛、嘴巴、眉毛和面部轮廓)和6维姿态系数(包括旋转和平移)来表示。上半身运动则通过隐式关键点来表示,而手部运动则通过基于MANO模板渲染的手部图像来控制。
- 关键点位移模块:为了捕捉更精细的面部表情,我们提出了一个关键点位移模块,通过向原始显式关键点添加隐式偏移量来对齐面部特征的实际位置。
第二阶段:视频生成
- 外观特征提取:从源图像中提取视觉特征,为后续的图像生成提供基础。
- 扭曲场估计:计算从源图像到目标图像的变换,以实现图像的扭曲和变形。
- 生成器:使用基于GAN的框架来合成最终图像。生成器接收扭曲后的外观特征和运动表示作为输入,生成目标图像。
- 手部高质量生成:为了生成高质量的手部图像,我们利用IQA(图像质量评估)来过滤掉低质量的手部数据,并通过MANO模板渲染手部图像并将其注入生成器,以提供更强的先验信息。
- 面部细化网络:为了进一步提升面部细节的真实感,我们引入了一个轻量级的面部细化网络,该网络由显式头部关键点和隐式偏移量驱动,专门用于面部区域的细化。
训练与优化
- 损失函数:我们采用了多种损失函数来优化模型,包括隐式关键点等变损失、关键点先验损失、变形先验损失、感知损失、GAN损失、重建损失以及手部区域感知损失等。
- 三阶段训练流程:通过模仿学习、基于拒绝采样的自我探索以及通过反思调优的自我纠正,逐步增强模型的能力。
研究结果
实验设置
我们在多个数据集上进行了实验,包括自驱动的再现设置和音频驱动的设置。为了评估生成视频的质量,我们采用了多种评价指标,包括峰值信噪比(PSNR)、结构相似性指数(SSIM)、学习到的感知图像块相似性(LPIPS)、Fréchet Inception距离(FID)、Fréchet视频距离(FVD)以及特征相似度(CSIM)等。此外,我们还计算了手部关键点置信度(HKC)来评估手部表示的质量。
定量比较
- 自驱动再现设置:我们的方法在PSNR、SSIM、LPIPS、FID、FVD和CSIM等指标上均显著优于现有的GAN基方法,同时在手部生成质量上也表现出色。
- 音频驱动设置:与现有的GAN基谈话头部方法相比,我们的方法在FID、CSIM、同步性(Sync)和多样性(Diversity)等指标上均取得了更好的性能,表明我们的方法能够生成更准确的唇形同步和更多样化的面部表情。
定性比较
通过视觉比较,我们发现我们的方法能够生成具有更高质量的上半身动作和手部动作,同时保持面部细节的真实感。特别是在手部生成方面,我们的方法能够生成更精细和连贯的手部动作。
研究局限
尽管我们的方法在实时互动视频聊天肖像生成方面取得了显著成果,但仍存在一些局限性:
- 模型复杂度:为了生成高质量的视频,我们的模型相对复杂,需要较高的计算资源。在未来的工作中,我们将探索如何进一步优化模型结构,降低计算复杂度。
- 数据多样性:我们的训练数据主要来自于YouTube上的谈话节目视频,虽然这些数据具有一定的多样性,但可能仍不足以覆盖所有可能的场景和风格。在未来的工作中,我们将努力收集更多样化的数据来进一步提升模型的泛化能力。
- 实时性挑战:尽管我们的方法在高性能GPU上能够实现实时生成,但在一些计算资源受限的设备上可能仍难以满足实时性的要求。我们将继续优化算法和模型结构,以提升在低计算资源设备上的实时性能。
未来研究方向
- 优化模型结构:探索更高效的模型结构来降低计算复杂度,同时保持生成质量。例如,可以采用更轻量级的神经网络结构或引入模型压缩技术来减小模型大小。
- 增强数据多样性:收集更多样化的训练数据来覆盖更多可能的场景和风格。这将有助于提升模型的泛化能力,使其能够生成更符合用户期望的视频内容。
- 提升实时性能:继续优化算法和模型结构以提升在低计算资源设备上的实时性能。例如,可以采用更高效的计算策略或引入硬件加速技术来加速生成过程。
- 拓展应用场景:将我们的方法应用于更多实际场景中,如虚拟主播、在线教育、远程协作等。通过不断拓展应用场景来验证和完善我们的方法,推动实时互动视频聊天技术的发展。