【口型生成学术进展】EMO-ali

论文介绍了一种新的算法,利用音频提示生成表情丰富的肖像视频,无需3D模型或面部标记。通过FrameEncoding和DiffusionProcess阶段,结合音频、人脸区域和头部运动,解决单图+音频视频生成中的割裂感问题。算法在大量训练数据和预处理后,通过多阶段训练实现了高效生成。
摘要由CSDN通过智能技术生成

论文:EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

亮点:无需中间的3D模型或面部标志,通过音频提示生成表情丰富的肖像视频。

解决了单图+音频的视频生成中的常见问题:头部运动和北京会有比较大的割裂感(比如SadTalker)。

方法介绍

整个算法被分为两个阶段:Frame Encoding和Diffusion Process。

Frame Encoding: 将参考帧和运动帧叠加起来,输出VAE Encoder,  将输出的latent输入给一个referenceNet提取特征表示。

Diffusion Process: 将语音,人脸区域,noisy,Head speed分别通过不同的方式注入到Backbone Network,将输出的特征表示通过VAE Decoder转换为图片。在backbone network里用到了两种类型的Attention(Reference-Attention and Audio-Attention)。

训练

训练数据集:使用了超过250小时的视频和超过1.5亿张图像,还是用到了HDTF和VFHQ两个公开数据集。

数据预处理:使用MediaPipe Face detection获取bouding box。提取每帧的 6DoF 头部姿势来标记头部旋转速度。从数据集中采样的video clips并裁剪为 512 × 512

训练分为三个阶段,图像预训练、视频训练和速度层训练.

图像预训练:基于SD模型初始化backbone和ReferenceNet,BackBone基于单张图输入,Reference image和target image从视频中采样获得,Batch size被设置成48。

[b,c,1,h,w]

视频预训练:基于animateDiff初始化temporal module。生成视频长度设置为f=12,运动帧数设置为n=4,Batch size为4

输入:[b,c,f,h,w] --->[(b*h*w),f,c] 

速度层训练:冻结音频layer,只训练temporal module和speed layers

参考

阿里发EMO模型,视频不可信了-虎嗅网

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值