阅读笔记——A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

概述

文章提出 Wav2Lip,基于音频合成对应唇形视频。文章提出实际视频中的不同姿态、尺度、光照的变化,而生成的视频也需要无缝融合到目标视频中。而一些模型可以在静态图像上表现比较好,但是在视频上的效果就不行。首先提出使用一个唇形同步判别器解决唇形不同步的问题(使用基于 SyncNet 的强大的唇同步判别器,强迫生成器生成精确、实际的唇部移动);另外提出一个新的评估标准精确测量非约束性视频下的唇形同步性能(使用 Syncnet 对视频中的唇部同步进行评估)。

同时作者将唇形生成分为约束性唇形生成和非约束性唇形生成两类。对于约束性唇型生成,之前的方案仅仅在一个对象上进行训练,因此无法合成新的形象或者声音,而一些数据集中受限制的词语数量也限制了模型的性能。对于非约束性唇形生成,之前方法的一个问题是可能在静态图像上效果不错,但是在非约束性视频下唇形同步效果不好。而和 LipGAN 不同的是,Wav2Lip 使用一个预训练的唇形同步判别器,并且不对这个判别器进行额外的训练。

开放环境下语音驱动的精确唇形生成

文章认为当前唇形不同步的主要问题是损失函数惩罚程度不够:使用的 L1 损失和 LipGAN 中的判别器对唇形同步的惩罚不够。例如唇部区域只占脸部区域极小部分,因此损失计算中很可能被忽略。除此之外,发现 LipGAN 的判别器在判断唇部同步性方面准确度不够高。认为主要的原因有两个:

  • 只使用单帧图像检查唇部同步性;
  • 生成器输出的图像不一定稳定,可能包含很多 artifacts,在这样的图像上训练判别器可能使得判别器关注于这些 artifacts,而不是关注到音频和视频的同步性上。

基于这样的发现,提出使用 SyncNet 对唇形同步性能进行判断,并且不使用生成的图像对判别器进行微调。具体来说,SyncNet 分别对人脸图像和音频使用 encoder 计算特征向量,然后用 L2 距离计算两个特征向量之间的距离,然后使用 max-margin loss 去最大化(不同步的音视频)或者最小化(同步的音视频)两个特征向量之间的距离。同时文章也基于 SyncNet 进行了一些修改:

  • 将输入灰度图像改为输入彩色图像;
  • 使用残差连接构建了更深的模型;
  • 使用 cosine 相似度和交叉熵损失。

最终在 LRS2 数据集上训练唇形同步判别器,在测试集上得到 91% 的准确率。

而在生成器方面则和 LipGAN 相似,也是一帧帧生成图像。为了满足专家判别器同时输入 5 帧图像的需求,在 batch 维度上扩充 5 倍。将生成的下半张脸(高度是 H / 2 H/2 H/2 )送入判别器。

除了使用唇形专家判别器,还使用另一个判别器,用来判断生成图像的视觉质量。这个判别器是随着生成器训练一起进行训练的。

最后生成器接受3个损失:L1 重建损失、唇形同步损失、生成对抗损失。如下图所示:
在这里插入图片描述
整体网络结构如下图所示:
在这里插入图片描述

性能评估

文章提出使用预训练的 SyncNet 评估生成图像帧和选择的音频的唇形同步误差,并基于 SyncNet 提出了两个评估标准。最终使用提出的 LSE-D 和 LSE-C 判断唇形同步性能,同时使用 FID 判断生成质量性能。最终在 3 个测试集上的指标如下:
在这里插入图片描述
除了模型评估之外,还使用 14 个评估人员,从 4 个维度对同步性能进行判断。最终不同输入语音条件下指标如下图所示:
在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

哇哇九号

您的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值