目录
1.WaveNet:A Generative Model for Raw Audio
2.Tacotron:Towards End-toEnd Speech Synthesis
DeepVoice 1:Real-time Neural Text-to-Speech
3.DeepVoice 2:Multi-Speaker Neural Text-to-Speech
前言
语音识别是最近几年很火的一个词,也是一个应用到生活中各种方面的一个技术。比如说经常使用的语音输入,微信的语音转文字,科大讯飞的语音翻译,手机的语音助手,智能音箱。这些东西都使用了语音识别技术,通俗来说,语音识别技术,就是用户输入一段语音,系统负责将语音转换成文字。
语音合成则是一个相反的过程,语音合成要求用户输入一段文字,系统负责将文字转换成一段流畅自然的语音。其实,语音合成在生活中的应用也是随处可见,只是我们有时候会将其忽略。比如车辆的报站系统,手机语音助手的语音回答,电子书的自动朗读等等。总之,生活中我们遇到的大多数让机器发出声音的场景,都使用的语音合成技术。
传统的语音合成系统 通常包含 前端和后端 两个模块。 前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息。对中文合成系统来说,前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果,通过一定的方法生成语音波形。
传统的语音合成系统的不足: 传统的语音合成