(Talking face) EVP

摘要

        尽管之前在生成音频驱动的说话人脸方面取得了成功,但之前的大多数研究都集中在语音内容与嘴形之间的相关性上。 面部情感是自然人脸上最重要的特征之一,但在他们的方法中总是被忽视。

在这项工作中,我们提出了情感视频肖像 (EVP),这是一种用于合成具有由音频驱动的生动情感动态的高质量视频肖像的系统。 具体来说,我们提出了交叉重构情感解开技术,将语音分解为两个解耦空间,即与时长无关的情感空间和与时长相关的内容空间。 通过解开的特征,可以推断出动态的 2D 情感面部标志。
然后我们提出了目标自适应人脸合成技术,通过弥合推导出的地标目标视频的自然头部姿势之间的差距,生成最终的高质量视频肖像。 大量实验从定性和定量两个方面证明了我们方法的有效性。 1

1 介绍

        生成音频驱动的逼真的人像视频是多媒体应用的迫切需求。以前的工作探索了生成说话的头部或人像,其嘴唇动作与输入的语音内容同步。通常,这些技术可以分为两类:1) 基于图像的方法,为一帧或几帧裁剪的人脸制作动画 [11, 44, 33, 9, 29, 46, 7] 和 2) 基于视频的编辑方法直接编辑目标视频剪辑 [34, 32, 35]。
尽管如此,之前的大多数研究都没有对情感进行建模,而情感是肖像自然主义的关键因素。
只有少数基于图像的作品讨论了头部生成中的情感信息。由于缺乏适当的带有情感注释的视听数据集,Vougioukas 等人。 [36] 没有明确地模拟情绪。简单地将情感和音频内容信息编码为单个特征,它们会产生低质量的初步结果。最近,Wang 等人。 [37] 收集 MEAD 数据集,其中包含带有情绪类别和强度注释的高质量谈话头部视频。然后他们将情绪设置为一个热点条件来控制生成的人脸。然而,所有这些基于图像的方法仅渲染具有固定背景或什至没有背景的轻微头部运动,这使得它们在大多数现实世界场景中不切实际。
然而,如 [34, 15, 32, 35] 中讨论的更适用的基于视频的编辑方法没有考虑情绪控制。他们大多只对嘴巴进行剪辑,并保持视频人像的上半部分不变,无法自由控制情绪。

        在这项研究中,我们提出了一种名为 Emotional Video Portraits (EVP) 的新算法,旨在赋予基于视频的编辑说话人脸生成以从音频中控制情绪的能力。我们使用与语音语调更匹配的情感动态为完整肖像制作动画,从而产生更生动的效果。然而,实现这一目标并非易事。存在几个复杂的挑战:1)从音频中提取情感相当困难,因为情感信息与语音内容等其他因素紧密纠缠在一起。 2)在合成高保真结果的同时,编辑后的人脸和目标视频的融合很困难。音频不提供任何头部姿势和头部整体运动的线索,因此从音频推断出的编辑过的头部可能与目标视频有很大的头部姿势和运动差异。
为了应对上述挑战,我们设法在所提出的情感视频肖像系统中实现基于音频的情感控制,该系统具有两个关键组件,即交叉重构情感解开和目标自适应人脸合成。为了对生成的肖像进行情感控制,我们首先提出了对音频的交叉重构情感解开技术来提取两个独立的潜在空间: ii) 一个持续时间相关的空间,它对音频的语音内容进行编码。一旦提取,来自这些潜在空间的特征被重新组合以产生新的音频表示,从而允许计算和优化交叉重建损失。但是,为了实现交叉重构训练,应提供相同长度但内容相同但情绪不同的成对句子。这在现实场景中几乎是无法实现的。为此,我们采用了时间序列分析中的经典算法动态时间扭曲(DTW)[3],以帮助形成具有对齐的不均匀长度语音语料库的伪训练对。

        遵循先前的方法 [34, 9],然后引入具有分解特征的音频到地标动画模块,以推断情感 2D 地标动态。由于音频中没有提供姿势信息,因此在生成的地标与目标视频中头部姿势和运动的大变化之间存在差距。为此,我们提出了目标自适应人脸合成技术弥合 3D 空间中推断的地标和目标视频肖像之间的姿势差距。 通过精心设计的 3D 感知关键点对齐算法,我们能够将 2D 地标投影到目标视频。最后,我们训练一个 Edge-to-Video 翻译网络来生成最终的高质量情感视频肖像。大量实验证明了我们方法的优越性能

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
OpenSSL EVP是OpenSSL库中的一个模块,提供了丰富的密码学函数。它封装了各种对称算法、摘要算法以及签名/验签算法。EVP系列函数的声明包含在"evp.h"头文件中,通过这些函数可以使用不同的加密算法进行数据的加密和解密。EVP主要封装了加密、摘要、编码三大类型的算法,并且提供了一些辅助函数。其中,加密算法和摘要算法是基本的功能,公开密钥算法使用对称加密算法对数据进行加密,使用非对称加密算法对密钥进行加密和解密。数字签名是使用非对称算法进行私钥签名和公钥认证。EVP还封装了base64编解码BIO、加解密BIO、摘要BIO、reliable BIO等功能函数,以及对称加解密算法、非对称密钥的加密、解密、签名和验证等功能函数。此外,EVP还提供了基于口令的加密(PBE)、对称密钥处理、数字信封等功能。[2] 在EVP中,seal系列函数实现了一个电子信封的功能。它生成一个随机密钥,并使用公钥对该密钥进行封装。数据可以使用该随机密钥进行对称加密。信封加密在大量数据传输时非常常用,因为公开密钥算法的加解密速度较慢,而对称算法的速度更快。因此,一般使用公开密钥算法对生成的随机密钥进行加密,然后使用该随机密钥进行对称加密。最后,将加密后的密钥与数据一起发送。seal系列函数的定义如下:EVP_SealInit、EVP_SealUpdate和EVP_SealFinal。[3]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值