语音合成学习

语音合成

语音合成技术大体可分为以下三个部分:

  • 文语合成(TTS,Text to Speech)
  • 语音转换(VC, Voice Conversion)
  • 语音生成(VG,Voice Generation)

但目前大多数人在研究TTS,所以一说语音合成,很多人指的就是TTS。

技术分类

常见分为两类:波形拼接法、参数法(声码器)。
1. 波形拼接法
首先,要准备好大量的语音,这些音都是又基本的单位拼接成的(基本单位如音节、音素等),然后从已准备好的声音中,抽取出来合成目标声音。
在这里插入图片描述
优点:使用原始语音波形替代参数,合成的语音清晰自然,质量相比于参数合成方法要好。PSOLA(pitch synchronous overlap add)算法可以对拼接单元的韵律特征进行调整。
缺点:数据量要求很大,数据库里必须有足够全的“音”。一般需要几十个小时的成品语料。企业级商用的需要至少5万句,费用成本在几百万元。

2. 参数法
传统模型的声码器(基于源-滤波模型),主要是提取每帧的语音参数(包括基频、频谱、非周期性参数等),最后把这些参数又合成为波形。基于深度学习声码器,常见的是将得到的频谱图直接映射为波形。
在这里插入图片描述
wavenet
在这里插入图片描述

优点:对数据的要求低。
缺点:质量比拼接法差一些。但是随着深度学习技术(Tacotron、WaveNet等)的发展,参数法的质量也超过了拼接法,渐渐趋近于人类的音质水平。
.
.

目前常用的就是参数法。又可分为以下两类。
其实基于参数方法的分析合成语音部分,我们称为声码器(最早用于通信领域),从英文Vocoder来看,其实是coder这个词于vocal进行组合创造出的,由此可管中窥豹,Vocoder指的是语音的一种编码解码的工具、方式。也就是说Vocoder是个语音加工工具箱,把语音喂给工具箱,能够得到处理过的特征,同时如果把特征喂给工具箱能够得到合成的语音。在应用场景中,多数情况是已经有了确定的语音特征,我们需要根据语音特征重构回语音。

  1. 传统方法:(基于信号处理)
    基于多参数提取的方法,如world,straight。
    基于直接谱转换的方法,如griffin-lim。
  2. 深度学习方法:(神经声码器)
    Neural Vocoder更多的是指将特征合成语音的模型步骤,也就是decoder的过程。尤其是基于现有较为广泛的主流特征mel spectralgram (多数特征生成模型将mel谱作为target),对于大多数模型来说Neural Vocoder 指的就是将mel spectralgram输入声码器,最终合成语音的模型。
    基于自回归的:wavenet、waveRNN
    基于流的:WaveGlow、Squeezewave
    基于结合信号处理与神经网络的:LPCnet
    基于维度固定的mel spectralgram:Multi band MelGAN

参见论文:
WaveNet: A Generative Model for Raw Audio

MelGAN : Generative Adversarial Networks for Conditional Waveform Synthesis

Waveglow: A Flow-based Generative Network for Speech Synthesis

SqueezeWave: Extremely Lightweight Vocoders for On-device Speech Synthesis

Parallel Wavegan: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram

A real-time wideband neural vocoder at 1.6 kb/s using LPCNet

Probability density distillation with generative adversarial networks for high-quality parallel waveform generation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值