Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析

程序猿也可以很哲学

已于 2022-03-15 17:07:18 修改

阅读量8.3k

点赞数 3

文章标签：人工智能计算机视觉深度学习

于 2022-03-15 16:41:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16564093/article/details/123504947

版权

付费专栏专栏收录该内容

12 篇文章 149 订阅 ¥19.90 ¥99.00

订阅专栏

ABSTRACT：

在这篇文档中，我们将研究任意人物的人脸视频与目标音频的口型匹配问题。当前领域能做到对特定训练过的人物进行精准的口型匹配，但在其他未训练的人物上效果不好。我们找到了导致这种问题的主要原因，并学习了一个强大的口型匹配模型。接着，我们提出新的口型评估标准，从而精准评估任意视频的口型匹配的准确度。结果表明，我们的模型wav2lip跟真实视频的准确率相当。

1. INTRODUCTION：

随着视频内容消费的爆炸增长，从而需要快速的视频创作。同时，让这些视频以不同的语言进行呈现也是一种挑战。

一开始的工作是使用深度学习学习一个单一的演讲者几个小时的视频，从语音特征到嘴唇关键点的映射。在这个方向上，最近开始学习直接从语音特征生成图片并且具有较高的生成质量。然而，这些并不通用。于是，通过学习上千个演讲者的视频，研究了与演讲者无关的模型。然而，要应用于翻译讲座/电视剧等应用且并不理想，例如，这些模型需要能够变形这些动态的、无约束的视频中，呈现的广泛多样的唇形，而不仅仅是静态图像。

我们的模型也是演讲者无关的模型，希望能适用于任意演讲者及视频。我们发现，这些模型在静态图像中工作得很好，但无法在无约束的视频内容中精确地改变大量唇形，导致生成的视频的很大一部分与新的目标音频不同步。一个观看者可以识别0.05~0.1秒的音视频不同步，因此这对我们工作是个挑战。而且，现实视频中演讲者的姿势，周围光照环境，要完美合成也是一个挑战。

我们首先回顾当前演讲者无关的模型，我们发现，这些模型不能充分惩罚错误的唇形，无论是仅使用重建损失或弱同步鉴别器。

了解本专栏

程序猿也可以很哲学

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
13
评论
Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析

ABSTRACT：在这篇文档中，我们将研究任意人物的人脸视频与目标音频的口型匹配问题。当前领域能做到对特定训练过的人物进行精准的口型匹配，但在其他未训练的人物上效果不好。我们找到了导致这种问题的主要原因，并学习了一个强大的口型匹配模型。接着，我们提出新的口型评估标准，从而精准评估任意视频的口型匹配的准确度。结果表明，我们的模型wav2lip跟真实视频的准确率相当。1. INTRODUCTION：随着视频内容消费的爆炸增长，从而需要快速的视频创作。同时，让这些视频以不同的语言进行呈现也是一种挑
复制链接

扫一扫

专栏目录

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序猿也可以很哲学 让我尝下打赏的味道吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。