层级重音分析与预测方法研究

nihaowhut

于 2015-02-10 22:29:46 发布

阅读量447

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nihaowhut/article/details/43711635

版权

语音合成技术主要有三部分：1、文本分析；2、韵律建模；3语音合成

文本分析

文本分析处理流程：

输入文本→文本预处理→文本规范化→分词→词性标注→字音转换→韵律预测→输出拼音节奏等信息

文本预处理包括删除无效符号，断句，内码转换等。

文本规范化的任务就是将文本中的这些特殊字符识别出来，并转化为一种规范化的表达。

字音转换的任务是将待合成的文字序列转换为对应的拼音序列，即告诉后端合成器应该读什么音。由于汉语中有多音字（/词）问题的存在，字音转换的一个关键问题
就是解决多音字（/词）的消歧问题。

韵律建模

生产合适的基频曲线、音长信息、静音长度等信息。从听者的角度来看，与韵律相关的语音参数包括：基频、时长、停顿和能量。韵律模型就是利用文本分析的结果，来预测这四个参数。

语音合成

声学模块的核心任务是根据文本分析模块和韵律模块的信息生成自然的语音波形。在波形拼接系统中，声学模块的主要任务是根据韵律信息在大规模语音库中挑选最合适的语音单元，然后进行平滑拼接。在参数语音合成系统中，声学模块的主要任务是根据韵律信息利用声码器技术直接从参数得到平滑的语音波形。

韵律预测的方法:①基于规则的方法：从较深的语言学、句法分析入手，总结出经验知识并将其整理成规则，以映射韵律。

②基于统计的方法：决策树（Decision Tree, DT）、隐马尔科夫模型（Hidden Markov Model, HMM）、人工神经网络（Artificial Neural Network, ANN）、最大熵（maximum entropy ME）、条件随机场（Conditional Random Field, CRF）模型...

重音的表现为：基频提高、音域扩大、时长增加、能量加大

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。