语音驱动口型算法(一)——基本思路梳理

最近工作上接了个奇葩的项目,用深度学习的办法实现动画卡通人物说话的内容和动画人物的口型同步,实现拟人的效果。可以这么理解:一个动画人,使用不同的嘴型去同步不同的音频信息。接到项目后,由于之前没有接触过,所以脑子一片混乱。在黑暗中摸索思考外加上网查了点资料后,思路才逐渐清晰。当前还没有深入到模型细节,只是捋顺了一些基本概念,问题拆解如下:

通俗点讲,也就是怎么将音频信号和动画人物口型建立起联系,更近一步,是为了将音素(声音的最小单位)映射到视素(某一音素相对应的嘴、舌头、下颚等可视发音器官所处的物理状态)。而且,根据日常生活的经验,一种口型可能会表示不同的发音信息,即多个音素对应一个视素,那么就可以把该问题看成是多对一的映射方式。

本来现实经验告诉我们,人讲话时,口型应该是个连续的动作,但是我们可以将动画人的口型简化为按照上下、左右张开的幅度进行简单划分为几种,即讲连续变量转化为类别变量,极端一点讲,张、微张、闭三种口型就可以构成口型数据库。

那么深度学习的任务,就可以理解为音素序列到开口大小的映射过程。接下来的方向似乎就比较清晰了:即如何从音频信号中提取特征,并将对应的口型作为标签,那么数据集似乎就可以建立完成了,接下来就可以开始训练模型了。到此,问题可以归类为音频分类。

emmmm,下周我要研究下音频序列的一些物理知识,有心得,继续更新。

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值