【腾讯TMQ】TTS评测--方案介绍和实践分享

最新推荐文章于 2024-01-16 14:37:13 发布

VIP文章腾讯移动品质中心TMQ

最新推荐文章于 2024-01-16 14:37:13 发布

阅读量6k

点赞数 1

分类专栏：精准测试测试分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TMQ1225/article/details/81221114

版权

导读

语音合成（Text To Speech，TTS）技术将文本转化为声音，目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及到语言学、语音学的诸多复杂知识，因合成技术的区别，不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现，如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。针对TTS前端、后端的存在的问题，选取TTS评测指标，制定各指标评测方法，形成了一套系统的TTS评测方案。

1 前后端问题

当前常见的TTS系统可分为前端、后端两部分，前端完成输入文本的归一化、分词、发音预测、韵律结构预测等处理，后端对声音建模，用学习得到的声音参数，通过声码器合成声音。

由于自然语言本身的复杂性和开放性，前端处理部分难度较大，难以覆盖所有情况，可能引入的问题举例如下：

（1）发音错误，汉语中的多音字、数字、专有名词等根据上下文的不同，发音也不一样，语料的覆盖不全，会导致部分字词的发音错误，另外现在国际化背景下，各类中英混合语料、缩略词、符号的存在，也为发音预测带来了大量困难。

（2）声调不准，中文在实际口语发音时，存在一系列复杂的的变调规则，如一／不变调，上声变调等。这类规则的处理不当会导致合成的语音与平时发音习惯不符，听来怪异。

（3）韵律异常，前端通过语法词分词、韵律词分词、断句等方式在文本中插入不同程度的停顿，通过时长预测控制字词的发音时长，分词和断句的错误会引起合成语音时的错误停顿，听起来节奏不当。

后端通过训练模型预测声音参数，通过声码器（WaveNet等不在此列）合成语音波形，但是无论是声音参数、还是声码器都是对实际发音过程的有损建模，无法百分百还原人声，可能引入的问题如下：

1）清晰度差，合成的字、词发音不清晰，近音词区分度差；

2）还原度差，与目标说话人的音色有差异；

3）杂音，在合成语音过程中引入背景噪声、字与字之间不流畅。

2 评测指标介绍

针对上文提到的前后端可能存在的问题，选择如下指标来评测TTS。

2.1 发音准确性

线上语料中

最低0.47元/天解锁文章

腾讯移动品质中心TMQ

关注

1
点赞
踩
22

收藏

觉得还不错? 一键收藏
3
评论
【腾讯TMQ】TTS评测--方案介绍和实践分享

导读语音合成（Text To Speech，TTS）技术将文本转化为声音，目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及到语言学、语音学的诸多复杂知识，因合成技术的区别，不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现，如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。针对TTS前端、后端的存在的问题，选取TTS评测指标，制定各指标评测...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。