语音合成 - 什么是语音合成?

  

1. 什么是语音合成?

2. PSOLA算法

3. 基于HMM的参数合成

4. 未来有哪些趋势?

 

(本系列时常补充和纠错) 

 

 

1.1 什么是语音合成?

  语音识别是最近几年很火的一个词,也是一个应用到生活中各种方面的一个技术。比如说经常使用的语音输入,微信的语音转文字,科大讯飞的语音翻译,手机的语音助手,智能音箱。这些东西都使用了语音识别技术,通俗来说,语音识别技术,就是用户输入一段语音,系统负责将语音转换成文字。

  语音合成则是一个相反的过程,语音合成要求用户输入一段文字,系统负责将文字转换成一段流畅自然的语音。其实,语音合成在生活中的应用也是随处可见,只是我们有时候会将其忽略。比如车辆的报站系统,手机语音助手的语音回答,电子书的自动朗读等等。总之,生活中我们遇到的大多数让机器发出声音的场景,都使用的语音合成技术。 

 

1.2 语音合成是怎么做到的?

  这里以其中一种典型的方法(拼接方法)做一个介绍。

  

图 1 : 拼接合成示意图

 

  在统计合成出现之前,语音合成技术大多是使用拼接合成。图中上面三个框图是拼接合成的三个步骤,下面三个框图是三个步骤使用的技术。

  文本分析的目的是找出文本中的停顿和重音等。语音合成的输入是一段文本,人类可以很快速的判断出一段文本哪里需要停顿,哪里需要重音,但是机器不知道。因此需要使用文本分析规则进行文本分析,让机器知道文本中的重音和停顿,也让机器知道文本中那些汉字组成一个词,那些汉字组成了一句话。下一步就需要依据文本从语音库挑选出适合的语音波形。这里需要介绍一下语音库,语音库中存储的是一个个音节的发音,而这些音节的发音全部来自对自然语音的切分,切分后对这些发音进行标注(包括发音记号、清浊音切分等等),有时候为了得到更加理想的合成效果,语音库中会存储同一发音记号对应的多个不同韵律的发音(比如不同音调、不同情感)。

  韵律控制则是为了实现对合成语音中的韵律调整。理想中的合成语音,是有着丰富韵律的,比如有的要重音,有的要低沉,而不是像机器人一样呆板而平稳的发音。这里的韵律控制主要是修改单个语音波形的时长和音调,以达到韵律控制的目的。使用的主要算法是基音同步叠加(PSOLA)算法。

  韵律调整好之后,下一步就是要把这些波形拼接起来,使之成为连续语音。这里需要注意的问题是,波形的拼接处,那面出现波形的突变:形成音量或者静音段和有声段的突然转变,出现“咔哒咔哒”的噪声,影响合成效果。因此这里需要使用平滑算法,减少这些现象的影响。

 

转载于:https://www.cnblogs.com/gstblog/p/9596721.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您好!对于腾讯云的语音合成服务,您可以使用其提供的 API 进行一段文本合成语音。具体步骤如下: 1. 登录腾讯云控制台,并创建一个语音合成应用。 2. 获取 API 密钥,包括 SecretId 和 SecretKey。 3. 在您的应用中,使用腾讯云提供的 API 进行调用。可以使用 HTTP POST 请求方式,将待合成的文本作为参数传递给 API,并将返回结果保存为音频文件。 以下是一个使用 Python 调用腾讯云语音合成 API 的示例代码: ```python import requests import hashlib import time import random secret_id = 'YOUR_SECRET_ID' secret_key = 'YOUR_SECRET_KEY' app_id = 'YOUR_APP_ID' text = '待合成的文本' def get_signature(app_id, secret_id, secret_key, expired): now = int(time.time()) rdm = random.randint(0, 999999999) plain_text = 'a={}&b={}&k={}&e={}&t={}&r={}&u={}&f={}&s={}'.format( app_id, 'tts', secret_id, expired, now, rdm, '', '0', '1') m = hashlib.md5() m.update(plain_text.encode()) signature = m.hexdigest() return signature def generate_tts(text): url = 'https://tts.cloud.tencent.com/stream' expired = int(time.time()) + 86400 signature = get_signature(app_id, secret_id, secret_key, expired) payload = { 'a': app_id, 'b': 'tts', 'k': secret_id, 'e': str(expired), 't': str(int(time.time())), 'r': str(random.randint(0, 999999999)), 'u': '', 'f': '0', 's': '1', 'tex': text.encode('utf-8'), 'sign': signature } response = requests.post(url, data=payload) if response.status_code == 200: with open('output.mp3', 'wb') as f: f.write(response.content) print('语音合成成功!音频文件已保存为 output.mp3') else: print('语音合成失败!错误信息:{}'.format(response.text)) generate_tts(text) ``` 请将示例代码中的 `YOUR_SECRET_ID`、`YOUR_SECRET_KEY`、`YOUR_APP_ID` 和 `待合成的文本` 替换为您自己的实际信息。执行该代码后,将会在当前目录下生成一个名为 `output.mp3` 的音频文件,即为合成后的语音。 希望能对您有所帮助!如有任何问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值