以人类为中心的面部计算技术解析
在情感语音合成领域,韵律转换之外,语音质量转换也至关重要。不同研究表明,语音质量转换对于某些情感类别可能是不可或缺的,同时也存在说话者主要依靠韵律来表达某些情感的策略,但这是否适用于所有类型的情感尚不清楚。
语音质量转换难题与解决方法
在双音素合成中,控制语音质量并非易事,因为修改双音素数据库的语音质量极为困难。不过,有两种部分补救方法:
- 多数据库切换法 :录制具有不同发声努力程度的单独双音素数据库。在合成过程中,系统在不同语音质量的双音素数据库之间进行切换,并从合适的数据库中选择双音素单元。
- 抖动模拟法 :利用抖动来模拟语音质量转换。抖动是基频轮廓的快速波动,添加抖动本质上相当于在基频轮廓上添加噪声,通过抖动模拟可以在一定程度上观察到合成语音中语音质量的变化。
实验成果
通过之前描述的框架和方法,已构建出一个功能完备的文本驱动 3D 类人情感视听头像系统。该系统在渲染中性以及几种基本情感(如快乐、喜悦、悲伤、愤怒和恐惧)方面取得了初步且有前景的实验结果。演示可在 此处 查看。
以下是主观听力实验的结果:
| 情感 | 实验 1(仅语音) | | 实验 2(语音 + 文字内容) | | 实验 3(语音 + 面部表情) | | 实验 4(语音 + 文字内容 + 面部表情) | |
| — | — | — | — | — | — | — | — | — | <