TTS(Text-To-Speech,语音合成)标注及评测涉及多个方面。标注类型包括文本标注、音素标注、韵律标注、语音标注、意图标注、发音标注、语速标注和语音合成参数标注等。
文本标注是标注待转换为语音的原始文本,包括语音识别中的转写文本和自然语言生成中的生成文本。例如在语音标注工作中,将语音中包含的文字信息提取出来进行转写,标注后的数据主要用于人工智能机器学习,应用在语音识别、对话机器人等领域。
韵律标注需标注文本中的基本语音单位及它们的语音属性,用于训练 TTS 模型中的韵律模型。像发音标注则是标注不同语言或方言中的发音差异,用于训练 TTS 模型中的发音模型。语速标注要标注文本的语速信息,包括语句的停顿、语调、语速变化等,用于训练 TTS 模型中的语速控制模型。
在进行 TTS 标注及评测时,可采用多种方法。如主观测试以 MOS 为主,包括专家级评测的 MOS(Mean Opinion Scores),1-5 分,5 分最好;还有普通用户评测的 ABX,让用户试听两个 TTS 系统进行对比。每次主观测评应有区分,比如着重听多音字、语气词等。客观测试可对合成系统产生的声学参数进行评估,一般是计算欧式距离等,也可对合成系统工程上进行测试,如实时率(合成耗时/语音时长)、首包响应时间、内存占用、CPU 占用、3*24 小时 crash 率等。
对于基于 TTS 语音相关标准进行数据标注及评测工作,包括文本&语音校对、音频数据处理等。文本标注方面,要仔细阅读和理解给定的文本内容,根据特定标注规范对文本进行词性标注、语音韵律标注、情感标注等,准确标注文本中的发音、重音、停顿等语音特征,以帮助优化 TTS 系统的语音合成效果。同时,对标注结果进行自我检查,确保标注的准确性和一致性,及时发现和纠正标注中的错误和不一致之处,提高数据质量。还需熟练掌握标注工具和软件,高效地进行文本标注工作,提出对标注工具的改进建议,以提高标注效率和质量。
TTS文本标注规范
文本标注是 TTS 标注中的重要类型之一。在 TTS 标注中,待转换为语音的原始文本需要进行标注,包括语音识别中的转写文本和自然语言生成中的生成文本。进行文本标注时,需要对文本进行分词,将长句子划分为短语或单词,以便计算机能够正确地理解每个单词的含义和语法结构。同时,还需要进行音素转换、音节划分等处理,让计算机能够准确地理解每个单词、每个音素和每个音节的含义和发音规则。例如在岗位招聘中,要求本科及以上学历,有汉语言文学相关专业背景的人员进行 TTS 标注,其中就包括文本校对等工作,这体现了文本标注在 TTS 系统中的重要性。
TTS韵律标注作用
TTS 韵律标注在语音合成中起到至关重要的作用。通过对文本中的重音、音节、音调等进行标记,TTS 系统能够更好地模拟人类的语音表达方式,使合成的语音更加富有韵律感和情感。具体而言,重音标记能使合成的语音更加准确地模拟人类的语音表达方式,重音标记的准确性对于提高语音合成的自然度和可懂性非常重要。音节划分可以帮助 TTS 系统更好地控制合成语音的节奏和韵律,使其更加自然流畅。音调标记能使合成语音更加富有情感和表现力。此外,TTS 韵律标注还可以帮助控制语速,使合成语音的节奏和韵律更加符合实际需