【腾讯TMQ】TTS评测--方案介绍和实践分享

导读

语音合成(Text To Speech,TTS)技术将文本转化为声音,目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及到语言学、语音学的诸多复杂知识,因合成技术的区别,不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现,如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。针对TTS前端、后端的存在的问题,选取TTS评测指标,制定各指标评测方法,形成了一套系统的TTS评测方案。

1 前后端问题

当前常见的TTS系统可分为前端、后端两部分,前端完成输入文本的归一化、分词、发音预测、韵律结构预测等处理,后端对声音建模,用学习得到的声音参数,通过声码器合成声音。

由于自然语言本身的复杂性和开放性,前端处理部分难度较大,难以覆盖所有情况,可能引入的问题举例如下:

(1)发音错误,汉语中的多音字、数字、专有名词等根据上下文的不同,发音也不一样,语料的覆盖不全,会导致部分字词的发音错误,另外现在国际化背景下,各类中英混合语料、缩略词、符号的存在,也为发音预测带来了大量困难。

(2)声调不准,中文在实际口语发音时,存在一系列复杂的的变调规则,如一/不变调,上声变调等。这类规则的处理不当会导致合成的语音与平时发音习惯不符,听来怪异。

(3)韵律异常,前端通过语法词分词、韵律词分词、断句等方式在文本中插入不同程度的停顿,通过时长预测控制字词的发音时长,分词和断句的错误会引起合成语音时的错误停顿,听起来节奏不当。

后端通过训练模型预测声音参数,通过声码器(WaveNet等不在此列)合成语音波形,但是无论是声音参数、还是声码器都是对实际发音过程的有损建模,无法百分百还原人声,可能引入的问题如下:

1)清晰度差,合成的字、词发音不清晰,近音词区分度差;

2)还原度差,与目标说话人的音色有差异;

3)杂音,在合成语音过程中引入背景噪声、字与字之间不流畅。

2 评测指标介绍

针对上文提到的前后端可能存在的问题,选择如下指标来评测TTS。

2.1 发音准确性

线上语料中

  • 1
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值