创新点
- Deep Voice 将深度学习应用于语音合成的全过程。
- 需要提取的特征非常少,因此容易应用于不同的数据集。
- 与现有技术相比,这个系统非常高效,专为生产系统而设计。
流程
- 将语素(文本)转换为音素
- 预测持续时间和基频
- 音频合成
上面是最大概的东西,除了第一步中有查字典的过程之外,剩下两步都是靠数据(数据大佬。。。)来训练神经网络(不清楚是不是用全连接层),传统的python库pyttsx也可以实现语音合成,两者之间的差异性不清楚在哪里,有待后续研究,这里给出论文详解链接:
Deep Voice详解教程——前百度首席科学家吴恩达力荐(上篇)
Deep Voice详解教程——前百度首席科学家吴恩达力荐(下篇)
代码【好像并不全】