目录
政安晨的个人主页:政安晨
欢迎 👍点赞✍评论⭐收藏
希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正!
本文目标:在Ubuntu系统上部署Hallo,实现训练和推理
背景介绍
由语音音频输入驱动的肖像图像动画领域在生成逼真的动态肖像方面取得了重大进展。
这项研究深入探讨了同步面部运动的复杂性,以及在基于扩散的方法框架内创建视觉上吸引人、时间上一致的动画。
我们的创新方法摒弃了依赖参数模型进行中间面部表征的传统模式,采用了端到端扩散模式,并引入了分层音频驱动视觉合成模块,以提高音频输入和视觉输出(包括嘴唇、表情和姿势运动)之间的对齐精度。 我们提出的网络架构无缝集成了基于扩散的生成模型、基于 UNet 的去噪器、时序对齐技术和参考网络。 所提出的分层音频驱动视觉合成技术可对表情和姿势多样性进行自适应控制,从而更有效地实现针对不同身份的个性化定制。
通过结合定性和定量分析的综合评估,我们的方法在图像和视频质量、嘴唇同步精度和动作多样性方面都有明显的提升。
项目地址为:
https://github.com/fudan-generative-vision/hallohttps://github.com/fudan-generative-vision/hallo
本方法所提议的流程概览如下:
具体而言,我们将包含肖像的参考图像与相应的音频输入整合,并用于驱动肖像动画。
可选的视觉合成权重可用于平衡嘴唇、表情和姿势权重。
ReferenceNet编码全局视觉纹理信息,用于实现一致且可控的角色动画。
人脸和音频编码器分别生成高保真的肖像身份特征和将音频编码为动作信息。
层次化音频驱动的视觉合成模块建立了音频和视觉组件(嘴唇、表情、姿势)之间的关系,并在扩散过程中使用UNet降噪器。
音频驱动的层次视觉合成的可视化及原始全方法与我们提出的层次音频-视觉交叉注意力之间的比较分析。
训练与推理
训练
训练过程包括两个不同的阶段:
(1) 在第一阶段的训练中,利用参考图像和目标视频帧对生成单个视频帧。
VAE编码器和解码器的参数以及面部图像编码器被固定,同时允许优化ReferenceNet和去噪UNet的空间交叉注意力模块的权重,以提高单帧生成能力。提取包含14帧的视频片段作为输入数据,从面部视频片段中随机选择一帧作为参考帧,从同一个视频中选择另一帧作为目标图像。
(2) 在第二阶段的训练中,使用参考图像、输入音频和目标视频数据进行视频序列训练。
ReferenceNet和去噪UNet的空间模块保持静态,专注于增强视频序列生成能力。这个阶段主要侧重于训练层次化的音频-视觉交叉注意力,建立音频作为运动指导和嘴唇、表情和姿势的视觉信息之间的关系。
此外,引入运动模块来改善模型的时间连贯性和平滑性&#