![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
语音处理理论篇
文章平均质量分 90
和语音处理相关的理论
`AllureLove
这个作者很懒,什么都没留下…
展开
-
深度学习与人类语言处理学习笔记(一)—— 语音识别(理论篇)
文章目录1. 语音识别概述1.1 Token的表示1.2 Acoustic Feature2. 语音识别深度学习模型2.1 Listen,Attend,and Spell(LAS)2.2 CTC2.3 RNN-T2.4 Neural Transducer2.5 MoChA3. 语音识别传统模型3.1 隐马尔可夫模型3.2 Tandem3.3 DNN-HMM Hybrid4. alignmentB站地址:深度学习与人类语言处理人类语言包含了语音(audio)和文字(text)两种形式。因此语音和文字的处原创 2021-10-14 16:53:44 · 4224 阅读 · 0 评论 -
深度学习与人类语言处理学习笔记(二)—— 变声(理论篇)
文章目录1. Voice Conversion1.1 Feature Disentangle1.1.1 Pre-training Encoders1.1.2 Adversarial Training1.1.3 Network Design1.1.4 2nd Stage Training1.2 Direct Transformation1.2.1 Cycle GAN1.2.2 StarGAN1.2.3 Blow1. Voice Conversion通过网络学习将一种声音转换成另一种声音,也就是变声器。这原创 2021-10-14 20:11:15 · 1676 阅读 · 0 评论 -
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)
文章目录Speech Separation1. Evaluation1.1 Signal-to-noise ratio(SNR)1.2 Scale invariant signal-to-distortion ratio(SI-SDR)2. Deep Clustering2.1 Masking3. Permutation Invariant Triaining(PIT)4. TasNet - Time-domain Audio Separation Network5. 存在问题5.1 未知说话人的个数5.原创 2021-10-14 21:42:53 · 3105 阅读 · 0 评论 -
深度学习与人类语言处理学习笔记(四)—— Vocoder(理论篇)
文章目录Vocoder1. Spectrogram2. Neural Vocoder2.1 WaveNet2.2 FFTNet2.3 WaveRNN2.4 WaveGlowVocodervocoder就是通过模型或方法将语音特征转换成对应的声音信号。1. Spectrogram频谱图的计算过程如下,和振幅相位有关,一段完整的声音包含振幅和相位的信息,因此要还原出原始声音不能仅包含频率信息,还应该包含相位信息,而且二者对于声音的还原都是很重要的:STFTx=X(t,f)=At,feiθt,fSTFT原创 2021-10-15 16:02:46 · 1735 阅读 · 0 评论