Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析

12 篇文章 149 订阅 ¥19.90 ¥99.00

ABSTRACT:

在这篇文档中,我们将研究任意人物的人脸视频与目标音频的口型匹配问题。当前领域能做到对特定训练过的人物进行精准的口型匹配,但在其他未训练的人物上效果不好。我们找到了导致这种问题的主要原因,并学习了一个强大的口型匹配模型。接着,我们提出新的口型评估标准,从而精准评估任意视频的口型匹配的准确度。结果表明,我们的模型wav2lip跟真实视频的准确率相当。

1. INTRODUCTION:

随着视频内容消费的爆炸增长,从而需要快速的视频创作。同时,让这些视频以不同的语言进行呈现也是一种挑战。

一开始的工作是使用深度学习学习一个单一的演讲者几个小时的视频,从语音特征到嘴唇关键点的映射。在这个方向上,最近开始学习直接从语音特征生成图片并且具有较高的生成质量。然而,这些并不通用。于是,通过学习上千个演讲者的视频,研究了与演讲者无关的模型。然而,要应用于翻译讲座/电视剧等应用且并不理想,例如,这些模型需要能够变形这些动态的、无约束的视频中,呈现的广泛多样的唇形,而不仅仅是静态图像。

我们的模型也是演讲者无关的模型,希望能适用于任意演讲者及视频。我们发现,这些模型在静态图像中工作得很好,但无法在无约束的视频内容中精确地改变大量唇形,导致生成的视频的很大一部分与新的目标音频不同步。一个观看者可以识别0.05~0.1秒的音视频不同步,因此这对我们工作是个挑战。而且,现实视频中演讲者的姿势,周围光照环境,要完美合成也是一个挑战。

我们首先回顾当前演讲者无关的模型,我们发现,这些模型不能充分惩罚错误的唇形,无论是仅使用重建损失或弱同步鉴别器。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 13
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿也可以很哲学

让我尝下打赏的味道吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值