【腾讯TMQ】【AI专栏】语音合成系统评测介绍

腾讯移动品质中心TMQ

于 2017-12-07 16:27:45 发布

阅读量3.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：精准测试文章标签：语音合成腾讯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TMQ1225/article/details/78742863

本文介绍了语音合成系统的评测，包括前端后端问题、客观评测和主观评测。前端问题涉及发音错误、声调不准和韵律异常；后端问题涉及清晰度、还原度和杂音。客观评测涵盖发音准确率、韵律准确率等；主观评测主要通过MOS评测和细分指标评估合成语音的自然度和用户体验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

语音合成（Text To Speech，TTS）技术将文本转化为声音，目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及语言学、语音学的诸多复杂知识，因实现细节的不同，TTS系统合成的语音在准确性、自然度、清晰度、连贯性等方面也有着不一样的表现，如何从多维度评价TTS系统质量成了TTS测试人员的一大挑战。本文针对TTS前端、后端的问题介绍了一种包括主观评测、客观评测TTS测试方法。

一、前端后端问题

当前典型的TTS系统可分为前端、后端两部分，前端完成输入文本的归一化、分词、发音预测、韵律结构预测的处理，后端对声音建模，通过学习得到声音参数，最后由声码器合成声音。

由于自然语言本身的复杂性和开放性，前端处理部分难度较大，难以覆盖所有情况，可能引入的问题举例如下：

1、发音错误。汉语中的多音字、数字、专有名词根据上下文的不同，发音也不一样，训练语料的覆盖不全，会导致合成的语音中部分字词的发音错误。另外现在国际化背景下，各类中英混合语料、缩略词、符号的存在，也为发音预测带来了巨大挑战。

2、声调不准。中文在实际口语发音时，存在一系列复杂的的变调规则，如一／不变调，上声变调等。这类规则的处理不当会导致合成的语音与平时发音习惯不符，听来怪异。

3、韵律异常。前端通过语法词分词、韵律词分词、断句等方式在文本中插入不同程度的停顿，通过时长预测控制字词的发音时长。分词、断句的错误会引起合成语音时的错误停顿，听起来节奏不当。

后端通过声音参数和声码器（WaveNet不在此列）合成语音波形，实际实现过程中无论是声音参数的选择，还是声码器的设计都是对真实发音过程的有损估计，无法百分百还原人声，可能引入的问题如下：

（1）清晰度差。合成的字、词发音不清晰，近音词区分度差；

（2）还原度差。合成音与目标说话人的音色有差异；

（3）杂音。在合成语音过程中引入背景噪声、字词间隔不顺畅。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。