论文阅读：Text2Video: Text-driven Talking-head Video Synthesis with PhoneticDictionary

最新推荐文章于 2024-05-14 10:03:46 发布

live_for_myself

最新推荐文章于 2024-05-14 10:03:46 发布

阅读量1.4k

点赞数 1

分类专栏：论文阅读文章标签：深度学习

本文链接：https://blog.csdn.net/landing_guy_/article/details/116998599

版权

论文阅读专栏收录该内容

39 篇文章 13 订阅

订阅专栏

文章目录

概述

从题目可以看出来，基本思想是从文本合成视频。之前的论文中也有出现过，有的是从文本合成语音，走的还是从语音到视频的路子。这篇文章简介中提到，它的方法是构建了一个 $p h o n e m e - p o s e$ 词典,是使用强制对齐从训练数据中提取音素及其时间戳 $(t i m e s t a m p s)$ 的方法提取的。并且通过GAN网络从插值的 $phoneme\ poses$ 生成视频。

文章提出了自己的优势：

需要的数据量比较少
speaker independent，比较灵活
处理，训练，推理的时间减少了

作者总结的contributions有下列几个：

文本不局限于英文，中文标点什么也可以
开发了一种自动姿势提取方法来构建 $phoneme-pose\ dictionary$ ，仅需要44个单词或者20个句子就可以构建这样一个dictionary，包含英语的所有音素。
为了生成自然的pose sequences和视频引入了插值 $(i n t e r p o l a t i o n)$ 和平滑方法 $(smoothness\ method)$

方法

每个汉字/英文单词在音频中的时间位置叫做时间戳
方法概述如下：

如上图所示，系统的输入是文本，可以是英文，中文，数字和标点符号。输出是会说话的人的视频。
给定输入文本，使用TTS从文本生成语音。然后，应用强制对齐以获得音素时间戳 $(t i m e s t a m p s)$ ，并在 $p h o n e m e - p o s e$ 字典中查找 $phoneme\ poses$ 。
接下来，应用关键姿势插值和平滑模块来生成 $pose\ sequences$ 。最后，使用GAN生成视频。

方法包含两个关键组成部分：

根据训练数据（语音的音频和视频）构建 $phoneme\ poses\ dictionary$ ，
训练模型以根据 $phoneme\ poses$ 生成视频。

Build Phoneme-Pose Dictionary

音素是一种语言的声音结构的基本单位。说话时舌头和嘴唇的不同位置产生不同的音素,例如lips rounded (e.g. /u/) or spread (e.g./i/), or wide open (e.g., /a/) or closed (e.g., /m/).
一般英语有40个音素, 英语中的词汇重音共有三个级别：主要重音，次要重音和不重音.
例如，permit中的元音“ er”在名词为名词时会加重，而在其为动词时则不会加重。念出重读的“ er”时，嘴巴张得稍微张大一些。因此，我们在英语 $phoneme\ poses\ dictionary$ 中区分重音。对于汉语普通话，我们使用声母和韵母作为 $phoneme\ poses\ dictionary$ 中的基本单位。

作者分别为英语和普通话建立了一个 $phoneme\ poses\ dictionary$ ，从音素映射到从 $speech\ production\ video$ 中提取的嘴唇姿势。

Key Pose Extraction

这里使用了这篇论文提出的方法:Open-Pose: realtime multi-person 2D pose estimation using Part Affinity Fields 但是我看这是提取姿态的, 就是人的框架那种, 和关键点有关系吗?

Phoneme Extraction

使用了P2FA对齐器(aligner, 来源于论文:Speaker identification on the scotus corpus)来确定发声及其发声的时间位置。该任务需要两个输入：音频和单词转录(word transcriptions)。使用 $pronouncing\ dictionary$ 或 $grapheme\ to\ phoneme\ rules$ ，预先将转录的单词( $transcribed\ words$ )映射到 $phone\ sequence$ 中。
通过比较观察到的语音信号和预训练的基于隐马尔可夫模型（HMM）的声学模型来确定 $Phone\ boundaries$ 。在强制对准( $forced\ alignment$ )中，语音信号被分析为连续的一组帧（例如，每10ms）。在给定观察数据和HMM表示的声学模型的情况下，通过找到最可能的隐藏状态序列（受到来自 $t r a n s c r i p t i o n$ 的已知音素序列的限制）来确定帧与音素的对齐方式。然后，我们根据对齐方式为字典中的每个音素存储pose sequences。根据数据集的视频帧速率和平均讲话速率来确定phoneme-poses的宽度。

Text to Speech

使用百度TTS从文本输入生成音频。系统使用默认的女性和男性声音。对于个性化视频生成，可以使用任何技术来生成自己选择的声音。不同人的声音不会影响我们方法生成的视频质量

Key Pose Insertion

要生成一系列姿势(poses)，我们需要为关键姿势之间的缺失姿势进行关键姿势插入。我们在语音中一个接一个地遍历所有音素，并在 $phoneme\ poses\ dictionary$ 中找到它们对应的姿势。当我们在视频中插入一个姿势时，我们会在它们的姿势参数空间中进行插值。我们通过考虑以下因素来确定插值策略： $phoneme\ poses$ 宽度（代表从 $phoneme\ poses\ dictionary$ 提取的关键姿势序列的帧数）和最小 $key\ pose\ distance$ （确定是否需要插值）
插值策略如下：如果两个 $phoneme\ key\ pose$ 帧之间的间隔长度大于或等于最小 $key\ pose\ distance$ ，我们将使用 $key\ pose_i$ 和 $key\ pose_{i + 1}$ 进行插值。
如果两个 $phoneme\ key\ pose$ 帧之间的间隔长度小于 $key\ pose\ distance$ ，我们将跳过 $key\ pose_{i + 1}$ ，并使用 $key\ pose_i$ 和 $key\ pose_{i + 2}$ 进行插值。
然后，我们将使用插值将两个 $key\ pose\ sequences$ 之间的 $key\ poses$ 与 $phoneme\ poses$ 的加权总和混合，如下图所示。输出序列中的新帧将在两个 $key\ pose\ frames$ 之间进行插值，并按它们与这两个frames之间的距离加权. 权重与 $key\ frame$ 的距离成反比，这意味着距离越大，权重越小。

在这里插入图片描述
这个图是啥意思呢?
作者注释是这样的: 这是插值法, 为了生成音素中包括“ me”或“ M IY1”的输出序列，我们首先在 $phoneme\ poses\ dictionary$ 中找到这两个 $key\ pose\ sequence$ ，并在输出帧中找到这两个音素的时间戳。该图显示了两个音素之间的间隔长度大于最小 $key\ pose\ distance$ 的情况，我们将这两个音素序列复制到输出帧，并将插值应用于这两个 $adjacent\ key\ poses$ 之间的中间poses。

Smoothing

在插值步骤之后进行平滑处理。音素姿势会直接复制到视频中的时间点。姿势运动的平滑由平滑宽度参数控制。为了使人的动作更加稳定，我们平滑了除嘴部以外的所有面部关键点。因为直接平滑嘴巴会牺牲与音素相对应的嘴巴形状的准确性，所以我们计算嘴巴中心并针对与嘴巴中心相对应的所有巴关键点进行平移。对新帧进行线性插值，并根据它们与滑动窗口中其他帧的距离进行加权。最后，我们将口关键点复制到每个帧的口中心。我们在滑动窗口中一一平滑帧，直到姿势序列结束。