语音合成技术简介

本文介绍了语音合成技术,包括传统的统计参数和端到端的合成系统。端到端系统简化了流程,降低了对语言学知识的需求,适用于多语种合成。文中详细探讨了 Tacotron、DeepVoice 等深度学习模型在语音合成中的应用。
摘要由CSDN通过智能技术生成


前言

  • 语音合成,通常又称文语转换(Text To Speech,TTS),是一种可以将任意输入文本转换成相应语音的技术,是人机语音交互中不可或缺的模块之一。
  • 传统的语音合成系统 通常包含 前端和后端 两个模块。 前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息。对中文合成系统来说,前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果,通过一定的方法生成语音波形。
  • 传统的语音合成系统的不足: 传统的语音合成系统,都是相对复杂的系统,比如,前端系统需要较强的语言学背景,并且不同语言的语言学知识还差异明显,因此需要特定领域的专家支持。后端模块中的参数系统需要对语音的发声机理有一定的了解,由于传统的参数系统建模时存在信息损失,限制了合成语音表现力的进一步提升。而同为后端系统的拼接系统则对语音数据库要求较高,同时需要人工介入制定很多挑选规则和参数。
  • 端到端语音合成系统: 直接输入文本或者注音字符,系统直接输出音频波形。端到端系统降低了对语言学知识的要求,可以很方便在不同语种上复制,批量实现几十种甚至更多语种的合成系统。并且端到端语音合成系统表现出强大丰富的发音风格和韵律表现力。
  • 语音合成根据应用的算法思想的不同,总体可以分为两类:基于统计参数的语音合成(传统)、基于深度学习的语音合成(端到端)。

一、传统语音合成系统

1. 总体框架

在这里插入图片描述

  • 前端模块通常采用NLP(自然语言处理)提取文本的语言学特征;
  • 后端模块一般分为基于统计参数建模的语音合成(Statistical Parameter Speech Synthesis,SPSS,以下简称参数合成),以及基于单元挑选和波形拼接的语音合成(以下简称拼接合成)两条技术主线。
  • 参数合成: 在训练阶段对语音声学特征、时长信息进行上下文相关建模,在合成阶段通过时长模型和声学模型预测声学特征参数,对声学特征参数做后处理,最终通过声码器恢复语音波形。(优点:音库较小时,有比较稳定的合成效果;缺点:统计建模带来的声学特征参数过平滑,以及声码器对音质会有损伤。)
  • 拼接合成: 通常也会用到统计模型来指导单元挑选,训练阶段与参数合成基本相同。在合成阶段通过模型计算代价来指导单元挑选,采用动态规划算法选出最优单元序列,再对选出的单元进行能量规整和波形拼接。(优点:可直接使用真实语音片段,最大限度保留语音音质;缺点:需要音库较大,无法保证领域外文本的合成效果。)

2. 基于统计参数的语音合成

2.1 系统流程图

在这里插入图片描述

  • 首先利用特征提取器从文本中抽取语言学特征,然后统计生成模型(也称声学模型)从语言学特征中生成声学特征,之后另一个系统利用声学特征重建语音波形(这种系统被称作声码器)。
  • 特征提取器的主要作业是生成语言学特征,以帮助声学模型生成更为准确的声学特征。
  • 声学模型无法直接产生语音波形,其主要原因是,语音非常复杂且难以建模。因此声学模型一般输出梅尔频谱等中间形式表示,然后再由声码器根据中间形式表示语音。
  • 声码器通过梅尔频谱等声学特征生成音频,需要将低维的声学特征映射到高维的语音波形,计算复杂度较高,因此波形波形恢复过程是语音合成系统提升效率的关键步骤之一。另外,由于声码器需要学习预测的信息量较大,因而也限制了最终的语音质量。

2.2 模型算法</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值