层级重音分析与预测方法研究

语音合成技术主要有三部分:1、文本分析;2、韵律建模;3语音合成

文本分析

文本分析处理流程:

输入文本→文本预处理→文本规范化→分词→词性标注→字音转换→韵律预测→输出拼音节奏等信息

文本预处理包括删除无效符号,断句,内码转换等。

文本规范化的任务就是将文本中的这些特殊字符识别出来,并转化为一种规范化的表达。

字音转换的任务是将待合成的文字序列转换为对应的拼音序列,即告诉后端合成器应该读什么音。由于汉语中有多音字(/词)问题的存在,字音转换的一个关键问题
就是解决多音字(/词)的消歧问题。 

韵律建模

生产合适的基频曲线、音长信息、静音长度等信息。从听者的角度来看,与韵律相关的语音参数包括:基频、时长、停顿和能量。韵律模型就是利用文本分析的结果,来预测这四个参数。

语音合成

声学模块的核心任务是根据文本分析模块和韵律模块的信息生成自然的语音波形。在波形拼接系统中,声学模块的主要任务是根据韵律信息在大规模语音库中挑选最合适的语音单元,然后进行平滑拼接。在参数语音合成系统中,声学模块的主要任务是根据韵律信息利用声码器技术直接从参数得到平滑的语音波形。


韵律预测的方法:①基于规则的方法:从较深的语言学、句法分析入手,总结出经验知识并将其整理成规则,以映射韵律。

     ②基于统计的方法:决策树(Decision Tree,  DT)、隐马尔科夫模型(Hidden Markov Model, HMM)、人工神经网络(Artificial Neural Network, ANN)、最大  熵(maximum entropy ME)、条件随机场(Conditional Random Field, CRF)模型...

重音的表现为:基频提高、音域扩大、时长增加、能量加大

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值