语音合成技术主要有三部分:1、文本分析;2、韵律建模;3语音合成
文本分析
文本分析处理流程:
输入文本→文本预处理→文本规范化→分词→词性标注→字音转换→韵律预测→输出拼音节奏等信息
文本预处理包括删除无效符号,断句,内码转换等。
文本规范化的任务就是将文本中的这些特殊字符识别出来,并转化为一种规范化的表达。
字音转换的任务是将待合成的文字序列转换为对应的拼音序列,即告诉后端合成器应该读什么音。由于汉语中有多音字(/词)问题的存在,字音转换的一个关键问题
就是解决多音字(/词)的消歧问题。
韵律建模
生产合适的基频曲线、音长信息、静音长度等信息。从听者的角度来看,与韵律相关的语音参数包括:基频、时长、停顿和能量。韵律模型就是利用文本分析的结果,来预测这四个参数。
语音合成
声学模块的核心任务是根据文本分析模块和韵律模块的信息生成自然的语音波形。在波形拼接系统中,声学模块的主要任务是根据韵律信息在大规模语音库中挑选最合适的语音单元,然后进行平滑拼接。在参数语音合成系统中,声学模块的主要任务是根据韵律信息利用声码器技术直接从参数得到平滑的语音波形。
韵律预测的方法:①基于规则的方法:从较深的语言学、句法分析入手,总结出经验知识并将其整理成规则,以映射韵律。
②基于统计的方法:决策树(Decision Tree, DT)、隐马尔科夫模型(Hidden Markov Model, HMM)、人工神经网络(Artificial Neural Network, ANN)、最大 熵(maximum entropy ME)、条件随机场(Conditional Random Field, CRF)模型...
重音的表现为:基频提高、音域扩大、时长增加、能量加大