论文总结：EXPRESSIVE SPEECH-DRIVEN FACIAL ANIMATION WITH CONTROLLABLE EMOTIONS

最新推荐文章于 2024-08-06 15:10:31 发布

the animal

最新推荐文章于 2024-08-06 15:10:31 发布

阅读量255

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/m0_46312382/article/details/133962540

版权

存在的问题：现有的语音驱动面部动画方法可以产生令人满意的嘴部运动和嘴唇同步，但在情感表达和情感控制方面存在不足。
在这里插入图片描述
作者使用wav2vec2.0和transformer encoder来获取文本向量和全局风格向量。将其拼接起来通过Auido2FLAME模块来预测flame的参数，Auido2FLAME由多层CNN组成。在此阶段，将主要关注嘴唇同步，并确保嘴部运动的精确性。引入了一个情感控制模块，其中包括一个基于双 LSTM 的情感预测器，后跟一个嵌入层来生成情感相关的潜在特征，以及一个基于 CNN 的情感增强网络来增强 FLAME 参数的表达能力基于情感特征。
在这里插入图片描述

Emotion Control Module：在训练阶段，为了使网络看到输入中的情感变化，我们利用基于图像的情感识别模型来获取帧级情感信息作为情感先验，以方便模型训练。这个作者使用DAN来获取情感先验。作者使用最后一个softmax层之前的logits（包含快乐、愤怒等七种情绪的七维向量）与感知的情绪强度高度一致，所以将其作为情感先验。通过最大化音频和视频之间的互信息（mutual information）(互信息用于衡量两个随机变量之间的相关性，这里用来衡量音频和视频中的情感信息之间的关联)来训练双向LSTM，从而提高情感识别的性能。在生成阶段，通过bi-LSTM网络从音频中提取情感先验，并通过用户输入的情感类别和强度进行更改。用户提供的情感条件转

最低0.47元/天解锁文章

the animal

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文总结：EXPRESSIVE SPEECH-DRIVEN FACIAL ANIMATION WITH CONTROLLABLE EMOTIONS

γt = γu,t + (γa,t − γa)" 表示最终的情感先验（γt）是由用户提供的情感条件（γu,t）和音频数据中的情感信息（γa,t）之间的组合构成。引入了一个情感控制模块，其中包括一个基于双 LSTM 的情感预测器，后跟一个嵌入层来生成情感相关的潜在特征，以及一个基于 CNN 的情感增强网络来增强 FLAME 参数的表达能力基于情感特征。通过与学习的嵌入矩阵相乘，将7维先验向量转换为128个情感特征向量，然后输入到由CNN块构建的情感增强网络中，实现情感引导的面部表情增强。
复制链接

扫一扫