【口型生成学术进展】EMO-ali

octopusAAA

已于 2024-03-05 12:52:22 修改

阅读量836

点赞数 13

分类专栏：学术进展文章标签：人工智能

于 2024-02-29 23:37:28 首次发布

本文链接：https://blog.csdn.net/andrew0087/article/details/136353270

版权

学术进展专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文介绍了一种新的算法，利用音频提示生成表情丰富的肖像视频，无需3D模型或面部标记。通过FrameEncoding和DiffusionProcess阶段，结合音频、人脸区域和头部运动，解决单图+音频视频生成中的割裂感问题。算法在大量训练数据和预处理后，通过多阶段训练实现了高效生成。

摘要由CSDN通过智能技术生成

论文：EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

亮点：无需中间的3D模型或面部标志，通过音频提示生成表情丰富的肖像视频。

解决了单图+音频的视频生成中的常见问题：头部运动和北京会有比较大的割裂感（比如SadTalker）。

方法介绍

整个算法被分为两个阶段：Frame Encoding和Diffusion Process。

Frame Encoding: 将参考帧和运动帧叠加起来，输出VAE Encoder, 将输出的latent输入给一个referenceNet提取特征表示。

Diffusion Process: 将语音，人脸区域，noisy，Head speed分别通过不同的方式注入到Backbone Network，将输出的特征表示通过VAE Decoder转换为图片。在backbone network里用到了两种类型的Attention（Reference-Attention and Audio-Attention）。