- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 深入浅出讲解语音合成三:声码器篇之LPCNet
在语音合成过程中,前端和中端负责从文本预测语音的压缩特征,如MFCC等。而最后由这些压缩特征到合成可测听的语音需要借由声码器来完成(vocoder)。下文将介绍常用的声码器之一:LPCNet~https://zhuanlan.zhihu.com/p/54952637上面的文章介绍的很详细了,本文算是做了一些补充和自己的理解。1.LPC线性预测分析原理一个语音的采样值能够用过去若干语...
2020-01-05 21:09:02 3924 1
原创 深入浅出讲解语音合成二:tacotron2及其改进方向
传统的语音合成方案如Merlin、HTS等,依赖于fulllabel和匹配问题集的生成,导致前端的处理工作是非常繁琐的。近年来,为了减少前端的数据准备工作,诞生了tacotron等优秀的端到端语音合成方案。本文着重讲解一下在业界广受好评的tacotron2,其结合了seq2seq(序列到序列)、位置敏感注意力机制及其端到端的语音合成方法,非常值得学习。1.序列到序列序列到序列最早应用于机器...
2020-01-04 21:06:31 4831 2
原创 深入浅出讲解语音合成一:merlin、Gantts及其前端处理
文字转语音(TTS)是一个给定文字输入,生成语音波形的系统。本系列文章将从传统的语音合成方法,到近期的端到端合成方案,各类型的声码器(个人认为比较有潜力的部分)进行讲解,作为近期实习结束后的工作总结。语音合成过程分为前端的文本处理,中端的模型训练和后端的声码器合成过程。在传统语音合成方法中,前端处理的过程是非常麻烦的。首先,作为训练语料的文本需要转换为神经网络能够识别的数字特征,所以诞...
2019-12-27 17:22:20 1979 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人