MATLAB算法实战应用案例精讲-【语音识别】语音合成（附python代码实现）

林聪木

已于 2022-12-20 12:06:24 修改

阅读量1.1k

点赞数

分类专栏：【数学建模应用】算法实战案例精讲300篇（持续更新ing）文章标签：语音识别人工智能

于 2022-12-16 00:30:00 首次发布

本文链接：https://blog.csdn.net/qq_36130719/article/details/128303559

版权

【数学建模应用】算法实战案例精讲300篇（持续更新ing）专栏收录该内容

该专栏为热销专栏榜第29名

652 篇文章 668 订阅 ¥49.90 ¥99.00

订阅专栏

本文深入探讨了语音合成技术，特别是基于深度学习的端到端方法，如WaveNet和WaveGlow。文章详细介绍了语音合成的流程，从文本前端分析到后端的声码器，包括WaveGlow声码器的工作原理和优势。此外，还讨论了不同模型的优缺点，如WaveNet的速度慢和WaveGlow的大参数量。最后，文章提到了应用案例，如腾讯云语音合成，并提供了基于TensorFlow实现WaveNet的代码片段。

摘要由CSDN通过智能技术生成

1.WaveNet：A Generative Model for Raw Audio

2.Tacotron：Towards End-toEnd Speech Synthesis

DeepVoice 1：Real-time Neural Text-to-Speech

3.DeepVoice 2：Multi-Speaker Neural Text-to-Speech

加载模型，创建Onnxruntime Session

前言

　语音识别是最近几年很火的一个词，也是一个应用到生活中各种方面的一个技术。比如说经常使用的语音输入，微信的语音转文字，科大讯飞的语音翻译，手机的语音助手，智能音箱。这些东西都使用了语音识别技术，通俗来说，语音识别技术，就是用户输入一段语音，系统负责将语音转换成文字。

　　语音合成则是一个相反的过程，语音合成要求用户输入一段文字，系统负责将文字转换成一段流畅自然的语音。其实，语音合成在生活中的应用也是随处可见，只是我们有时候会将其忽略。比如车辆的报站系统，手机语音助手的语音回答，电子书的自动朗读等等。总之，生活中我们遇到的大多数让机器发出声音的场景，都使用的语音合成技术。

传统的语音合成系统通常包含前端和后端两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息。对中文合成系统来说，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形。
传统的语音合成系统的不足：传统的语音合成

了解本专栏