最近工作上接了个奇葩的项目,用深度学习的办法实现动画卡通人物说话的内容和动画人物的口型同步,实现拟人的效果。可以这么理解:一个动画人,使用不同的嘴型去同步不同的音频信息。接到项目后,由于之前没有接触过,所以脑子一片混乱。在黑暗中摸索思考外加上网查了点资料后,思路才逐渐清晰。当前还没有深入到模型细节,只是捋顺了一些基本概念,问题拆解如下:
通俗点讲,也就是怎么将音频信号和动画人物口型建立起联系,更近一步,是为了将音素(声音的最小单位)映射到视素(某一音素相对应的嘴、舌头、下颚等可视发音器官所处的物理状态)。而且,根据日常生活的经验,一种口型可能会表示不同的发音信息,即多个音素对应一个视素,那么就可以把该问题看成是多对一的映射方式。
本来现实经验告诉我们,人讲话时,口型应该是个连续的动作,但是我们可以将动画人的口型简化为按照上下、左右张开的幅度进行简单划分为几种,即讲连续变量转化为类别变量,极端一点讲,张、微张、闭三种口型就可以构成口型数据库。
那么深度学习的任务,就可以理解为音素序列到开口大小的映射过程。接下来的方向似乎就比较清晰了:即如何从音频信号中提取特征,并将对应的口型作为标签,那么数据集似乎就可以建立完成了,接下来就可以开始训练模型了。到此,问题可以归类为音频分类。
emmmm,下周我要研究下音频序列的一些物理知识,有心得,继续更新。