(Talking face) EVP

m0_55217431

已于 2022-02-28 10:27:24 修改

阅读量1.9k

点赞数 1

分类专栏： audio to video 文章标签：深度学习

于 2021-10-20 09:29:22 首次发布

本文链接：https://blog.csdn.net/m0_55217431/article/details/120387957

版权

摘要

尽管之前在生成音频驱动的说话人脸方面取得了成功，但之前的大多数研究都集中在语音内容与嘴形之间的相关性上。 面部情感是自然人脸上最重要的特征之一，但在他们的方法中总是被忽视。

在这项工作中，我们提出了情感视频肖像 (EVP)，这是一种用于合成具有由音频驱动的生动情感动态的高质量视频肖像的系统。具体来说，我们提出了交叉重构情感解开技术，将语音分解为两个解耦空间，即与时长无关的情感空间和与时长相关的内容空间。 通过解开的特征，可以推断出动态的 2D 情感面部标志。
然后我们提出了目标自适应人脸合成技术，通过弥合推导出的地标和目标视频的自然头部姿势之间的差距，生成最终的高质量视频肖像。大量实验从定性和定量两个方面证明了我们方法的有效性。 1

1 介绍

生成音频驱动的逼真的人像视频是多媒体应用的迫切需求。以前的工作探索了生成说话的头部或人像，其嘴唇动作与输入的语音内容同步。通常，这些技术可以分为两类：1) 基于图像的方法，为一帧或几帧裁剪的人脸制作动画 [11, 44, 33, 9, 29, 46, 7] 和 2) 基于视频的编辑方法直接编辑目标视频剪辑 [34, 32, 35]。
尽管如此，之前的大多数研究都没有对情感进行建模，而情感是肖像自然主义的关键因素。
只有少数基于图像的作品讨论了头部生成中的情感信息。由于缺乏适当的带有情感注释的视听数据集，Vougioukas 等人。 [36] 没有明确地模拟情绪。简单地将情感和音频内容信息编码为单个特征，它们会产生低质量的初步结果。最近，Wang 等人。 [37] 收集 MEAD 数据集，其中包含带有情绪类别和强度注释的高质量谈话头部视频。然后他们将情绪设置为一个热点条件来控制生成的人脸。然而，所有这些基于图像的方法仅渲染具有固定背景或什至没有背景的轻微头部运动，这使得它们在大多数现实世界场景中不切实际。
然而，如 [34, 15, 32, 35] 中讨论的更适用的基于视频的编辑方法没有考虑情绪控制。他们大多只对嘴巴进行剪辑，并保持视频人像的上半部分不变，无法自由控制情绪。

在这项研究中，我们提出了一种名为 Emotional Video Portraits (EVP) 的新算法，旨在赋予基于视频的编辑说话人脸生成以从音频中控制情绪的能力。我们使用与语音语调更匹配的情感动态为完整肖像制作动画，从而产生更生动的效果。然而，实现这一目标并非易事。存在几个复杂的挑战：1）从音频中提取情感相当困难，因为情感信息与语音内容等其他因素紧密纠缠在一起。 2）在合成高保真结果的同时，编辑后的人脸和目标视频的融合很困难。音频不提供任何头部姿势和头部整体运动的线索，因此从音频推断出的编辑过的头部可能与目标视频有很大的头部姿势和运动差异。
为了应对上述挑战，我们设法在所提出的情感视频肖像系统中实现基于音频的情感控制，该系统具有两个关键组件，即交叉重构情感解开和目标自适应人脸合成。为了对生成的肖像进行情感控制，我们首先提出了对音频的交叉重构情感解开技术来提取两个独立的潜在空间： ii) 一个持续时间相关的空间，它对音频的语音内容进行编码。一旦提取，来自这些潜在空间的特征被重新组合以产生新的音频表示，从而允许计算和优化交叉重建损失。但是，为了实现交叉重构训练，应提供相同长度但内容相同但情绪不同的成对句子。这在现实场景中几乎是无法实现的。为此，我们采用了时间序列分析中的经典算法动态时间扭曲（DTW）[3]，以帮助形成具有对齐的不均匀长度语音语料库的伪训练对。

遵循先前的方法 [34, 9]，然后引入具有分解特征的音频到地标动画模块，以推断情感 2D 地标动态。由于音频中没有提供姿势信息，因此在生成的地标与目标视频中头部姿势和运动的大变化之间存在差距。为此，我们提出了目标自适应人脸合成技术来弥合 3D 空间中推断的地标和目标视频肖像之间的姿势差距。通过精心设计的 3D 感知关键点对齐算法，我们能够将 2D 地标投影到目标视频。最后，我们训练一个 Edge-to-Video 翻译网络来生成最终的高质量情感视频肖像。大量实验证明了我们方法的优越性能

最低0.47元/天解锁文章

m0_55217431

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
(Talking face) EVP

摘要尽管之前在生成音频驱动的说话人脸方面取得了成功，但之前的大多数研究都集中在语音内容与嘴形之间的相关性上。面部情感是自然人脸上最重要的特征之一，但在他们的方法中总是被忽视。在这项工作中，我们提出了情感视频肖像 (EVP)，这是一种用于合成具有由音频驱动的生动情感动态的高质量视频肖像的系统。具体来说，我们提出了交叉重构情感解开技术，将语音分解为两个解耦空间，即与时长无关的情感空间和与时长相关的内容空间。通过解开的特征，可以推断出动态的 2D 情感面部标志。然后我们提出了目标自...
复制链接

扫一扫