- 这个好像还没见刊
输入输出
输入是neutral 3d mesh 和一段声音信号
输出是 带有情绪的人脸动画
背景
现在3d emotion dataset 比较少
贡献
- 创建了一个3d 数据集
- 端到端的对3d talking head animation的框架
- 提出了新型的3d face的表达方式
方法
概括来说有3点:
- 提取音频信息
- 预测顶点变换
- 情绪变换, 生成3d mesh data (情绪这里是离散的标签)
3d 重建
这里对3d model的表达是这样的, 不和3dmm一样
这里是用2d 的landmarks来拟合3d
使用了正交投影 orthographic projection
情绪增强
因为数据比较少, 于是选择了3个情绪分别是开心, 惊讶, 生气这三个情绪进行增强, 增强方法原文写的不是很容易理解, 贴出原文:
Representation of 3D Mesh as Image
这部分直接贴出做法, 因为它讲的实在是不怎么清楚
核心点就是之前的预测都是直接的预测点, 没有考虑点和点之间的关系, 这个构建是使用了测地线距离, 同时使用MDS方法降维, 这样保留了连接信息
Neutral Talking Model
直接从语音预测的部分是使用了别人的工作, Capture, learning, and synthesis of 3d speaking styles. 挺好的一篇文章
不过这里的点还是不太一样, 原文的模型是5023个点, 现在的模型是12483个点.
Emotion Transfer
使用StarGan做的