自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (3)
  • 收藏
  • 关注

原创 深入浅出讲解语音合成三:声码器篇之LPCNet

在语音合成过程中,前端和中端负责从文本预测语音的压缩特征,如MFCC等。而最后由这些压缩特征到合成可测听的语音需要借由声码器来完成(vocoder)。下文将介绍常用的声码器之一:LPCNet~https://zhuanlan.zhihu.com/p/54952637上面的文章介绍的很详细了,本文算是做了一些补充和自己的理解。1.LPC线性预测分析原理一个语音的采样值能够用过去若干语...

2020-01-05 21:09:02 3908 1

原创 深入浅出讲解语音合成二:tacotron2及其改进方向

传统的语音合成方案如Merlin、HTS等,依赖于fulllabel和匹配问题集的生成,导致前端的处理工作是非常繁琐的。近年来,为了减少前端的数据准备工作,诞生了tacotron等优秀的端到端语音合成方案。本文着重讲解一下在业界广受好评的tacotron2,其结合了seq2seq(序列到序列)、位置敏感注意力机制及其端到端的语音合成方法,非常值得学习。1.序列到序列序列到序列最早应用于机器...

2020-01-04 21:06:31 4814 2

原创 深入浅出讲解语音合成一:merlin、Gantts及其前端处理

文字转语音(TTS)是一个给定文字输入,生成语音波形的系统。本系列文章将从传统的语音合成方法,到近期的端到端合成方案,各类型的声码器(个人认为比较有潜力的部分)进行讲解,作为近期实习结束后的工作总结。语音合成过程分为前端的文本处理,中端的模型训练和后端的声码器合成过程。在传统语音合成方法中,前端处理的过程是非常麻烦的。首先,作为训练语料的文本需要转换为神经网络能够识别的数字特征,所以诞...

2019-12-27 17:22:20 1977 2

工程备份.zip

由于使用查表法,需要将表格pcm文件放在D盘目录下。FFT中有定点化的基二和基四的蝶形运算。三角函数使用cordic算法进行实现。

2019-05-16

自适应信号处理佩德罗版

压缩文件中含有自适应信号处理全课本的自编写代码,包括课程仿真实例的期中期末作业等等

2019-05-07

matlab voicebox等库+能熵比端点检测谱减降噪输出

包括了matlab音频处理入门的常用库及宋知用和张雪英教材的配套程序

2018-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除