人类是怎么一步一步地教会机器说人话的？告诉你语音合成技术的前世今生

如今，科技已经悄无声息的渗入我们每个人的生活，有时，你甚至毫无察觉。

比如，拨打10086等服务号，会听到一个甜美的女声为您引导；

比如，启用导航软件，会听到一个流畅的语音播报路况。

再比如，使用时下流行的打车软件，有清晰语音为师傅播报乘客的位置。

而这些声音，其实都是机器自动合成播报的。是研究人员通过语音合成技术，能够让机器发出的声音。并且，经过多年的发展，机器合成的声音不仅能够达成普通人说话水平，更能赋予声音以个性、情感。很多时候，甚至能以假乱真。也许，在不久的将来，各种科幻片动画片中使用的“变声器”将不再是传说。

对这门神奇技术的前世、今生有兴趣么？不妨通过这项技术的发展史来感受一下语音世界的神奇魅力。

语音合成又称文语转换（Text to Speech，TTS）技术，通过机械的、电子的方法产生人造语音。通俗的讲，语音合成技术就是赋予计算机像人一样可以自如说话的能力。

最早的“语音合成”是利用机械装置实现的。Kratzenstein在1779年研制出一种机械式语音合成器，用风箱模拟人的肺、簧片模拟声带、以皮革制成的共振腔模拟声道，通过改变共振腔的形状，可以合成出一些不同的元音。这可谓是人类历史上最早的合成技术。

19世纪出现电子器件以来，语音合成技术快速发展。1939年，贝尔实验室H. Dudley制作出一个电子合成器(Dudley'39)。这是一个利用共振峰原理制作的语音合成器，它以一些白噪音似的激励产生非浊音信号，以周期性的激励产生浊音信号。模拟声道的共振器是通过一个10阶的带通滤波器建模，模型的增益通过人来控制。

工作人员正在使用电子合成器

此后的一个世纪，语音合成技术不断取得一个又一个的突破。

1960年，G. Fant系统地阐述了语音产生的理论，极大地推动了语音合成技术的进步。

1980年，D. Klatt设计出串/并联混合型共振峰合成器，可以模拟不同的嗓音。

串/并联混合型共振峰合成器工作流程图

20世纪80年代末，基音同步叠加的时域波形修改（PSOLA）算法被提出，较好地解决了语音段之间的拼接问题，有力推动了语音合成技术的发展。

1990年代随着电子计算机的运算和存储能力的迅猛发展，基于大语料库的单元挑选与波形拼接合成方法逐渐成熟并开始商业应用。它的基本思想是从预先录制和标注好的语音库中挑选合适的单元，进行少量的调整（或者不进行调整），拼接得到最终的合成语音，其优势在于保持了高质量的原始声音。

大语料库合成流程图

20世纪末，可训练的语音合成方法（Trainable TTS）被提出。该方法基于统计建模和机器学习的方法，根据一定的语音数据进行训练并快速构建合成系统。这种方法可以自动快速的构建合成系统，系统尺寸很小，很适合嵌入式设备上的应用以及多样化语音合成方面的需求。

21世纪，语音合成技术飞速发展。在声音合成达到真人说话水平后，学界渐渐把眼光转向音色合成、情感合成等领域，力求使合成的声音更加自然，并具备个性化特征。

嵌入式语音芯片广泛应用于产品中

九十年代初，在国外，智能语音技术的商用前景日益显现。1994年，专门从事智能语音技术商业化的Nuance公司（其前身是斯坦福大学研究中心语言技术研究实验室）成立并推动了智能语音技术在呼叫中心、金融、医疗行业等的全面运用。

反观国内，中文语音合成研究起步较晚，但是在国家863计划，国家自然科学金基委，国家攻关计划，中国科学院有关项目等支持下，也涌现了联想佳音（1995）；清华大学的TH_SPEECH (1993)；中国科技大学的KDTALK（1995）等优秀系统。

然而，这些系统合成的句子及篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，大大阻碍了产业化进程。　

1998年，中文语音合成技术出现了突破性的发展。中科大语音实验室刘庆峰带队开发的KD863语音合成系统，不仅具备了优良的自然度，合成出来的语句近乎人声，成为国家863计划成果比赛中最为轰动的研究成果。

当时， IBM、英特尔、微软摩托罗拉等国际巨头纷纷瞄准中文语音市场，在中国设立语音研究基地，国内语音专业优秀毕业生基本全部外流，国内语音产业几乎被国外掐住“咽喉”。

1999年，以刘庆峰为首的研发团队创立了科大讯飞。怀抱着“中文语音技术应当由中国人做到全球最好，中文语音产业应当掌握在中国人自己手中”的信念，科大讯飞不断通过产学研合作的创新机制，有效整合语音技术源头资源，不仅把中文语音合成做好了全球最好，并且将多语种合成也做到了全球领先。

2000年，科大讯飞将KD2000语音合成系统正式推向市场，并且在同国际IT巨头的竞争中脱颖而出，2001年，华为公司宣布正式采购讯飞公司的合成产品。

2004年，科大讯飞在国家863中文语音合成评测中囊括所有指标第一。

2006年，科大讯飞正式发布面向终端产品的嵌入式参数合成系统Aisound，在车载、手机等终端设备，市场占有率达80%。

2006年，科大讯飞首次参加Blizzard Challenge国际英文合成大赛即夺冠，此后从2006年至今，已经连续9年夺得该项赛事冠军。

2007年，在Blizzard Challenge中，科大讯飞基于统计声学模型的单元挑选语音合成方法构建的合成系统取得了自然度和相似度指标的第一名，引起了国际语音合成技术领域对该方法的广泛关注。在随后的Blizzard Challenge活动中，该方法也被其他参赛单位广泛采用。

2010年，科大讯飞多语种合成系统发布，覆盖包括日、韩、法、俄、意、西班牙、葡萄牙、印地语、乌尔都语、越南语，以及维吾尔语、蒙古语、藏语等27个国家及民族语言，该系统科大讯飞完全拥有自主知识产权。

2013年，基于超时长无监督音库制作流程取得阶段性成果，在移动小说阅读及教育英文发音人方面取得阶段性成果，为后续高表现力的合成效果奠定基础。

2013年，面向嵌入式平台的拼接系统发布，这是科大讯飞在嵌入式平台上合成应用的又一利器。

2014年，科大讯飞利用结合深度神经网络的统计参数语音合成方法构建了部分待测语种的合成系统，在这些语种上也取得了多项评测指标的第一名。

随着智能人机交互领域迅猛发展，科大讯飞仍在积极开发具有高表现力的小说合成，高真实感的对话合成，教育听力合成，以及个性化音色转换等前沿技术。

对于不少移动应用开发者而言，运用最先进的语音合成技术在应用中向用户提供流畅拟真的语音播报，将能为应用带来更佳的用户体验。中国移动的灵犀云平台正为此而生。这个由运营商搭建的有着强大智能语音服务处理能力的云平台，使用了来自科大讯飞研发的核心语音合成技术，通过最新一代文语转化引擎使合成效果已几乎与真人无异。

目前，灵犀云已公开对外输出语音合成能力，开发者们可通过下载SDK集成至应用中，轻松实现合成功能。能力的技术特性包括：

1、支持中英文混读合成

2、支持合成中、英、粤以及台湾普通话、四川话、东北话、河南话、湖南话、陕西话等方言

3、支持多种不同音色，发音人的选择

有兴趣可戳此了解更多：http://dev.10086.cn/lingxicloud/