论文总结:EXPRESSIVE SPEECH-DRIVEN FACIAL ANIMATION WITH CONTROLLABLE EMOTIONS

存在的问题:现有的语音驱动面部动画方法可以产生令人满意的嘴部运动和嘴唇同步,但在情感表达和情感控制方面存在不足。
在这里插入图片描述
作者使用wav2vec2.0和transformer encoder来获取文本向量和全局风格向量。将其拼接起来通过Auido2FLAME模块来预测flame的参数,Auido2FLAME由多层CNN组成。在此阶段,将主要关注嘴唇同步,并确保嘴部运动的精确性。引入了一个情感控制模块,其中包括一个基于双 LSTM 的情感预测器,后跟一个嵌入层来生成情感相关的潜在特征,以及一个基于 CNN 的情感增强网络来增强 FLAME 参数的表达能力基于情感特征。
在这里插入图片描述

Emotion Control Module:在训练阶段,为了使网络看到输入中的情感变化,我们利用基于图像的情感识别模型来获取帧级情感信息作为情感先验,以方便模型训练。这个作者使用DAN来获取情感先验。作者使用最后一个softmax层之前的logits(包含快乐、愤怒等七种情绪的七维向量)与感知的情绪强度高度一致,所以将其作为情感先验。通过最大化音频和视频之间的互信息(mutual information)(互信息用于衡量两个随机变量之间的相关性,这里用来衡量音频和视频中的情感信息之间的关联)来训练双向LSTM,从而提高情感识别的性能。在生成阶段,通过bi-LSTM网络从音频中提取情感先验,并通过用户输入的情感类别和强度进行更改。用户提供的情感条件转

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值