语言识别
天涯海阁未走远
这个作者很懒,什么都没留下…
展开
-
mfcc
本来想着自己写一篇mfcc的博文,看了好些资料。还有些操作没有实现,下来再慢慢看吧。学习过程中也读到了一些优秀的博文。这里就直接贴链接吧https://blog.csdn.net/c602273091/article/details/44230403 这篇文章写得真是很好,有代码有注释,各个步骤都很清晰。https://blog.csdn.net/robingao1994/artic...原创 2018-05-21 20:01:18 · 1277 阅读 · 0 评论 -
常用语音和文字数据库。用于语音识别、合成以及文字分类
记录一下常用的数据库。TIMIT 也忘记当时从哪下的了,网上也没看到好一点的链接。 TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来...转载 2018-07-22 09:07:01 · 7003 阅读 · 0 评论 -
HMM模型和Viterbi算法
转自:https://www.cnblogs.com/Denise-hzf/p/6612212.html一、隐含马尔可夫模型(Hidden Markov Model)1、简介 隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的。隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速、有效...转载 2018-09-12 18:46:35 · 134 阅读 · 0 评论 -
(翻译)Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks
写在前面:一个想法(如有不对的地方还请批评指正!)对于平行语料库,由于utterances的内容是一致的,所以语音转换只需要对声学模型(Acoustic Model)建模并训练;而对于非平行语料库,由于utterances的内容不一致,所以才需要语言学模型(Linguistic Model)和声学模型(Acoustic Model)一起建模。声学模型参数主要包括F0,delta, 频谱包络...翻译 2018-09-16 16:40:31 · 921 阅读 · 1 评论 -
dwt:动态时间规整
HMM学习笔记_1(从一个实例中学习DTW算法)转自:http://www.cnblogs.com/tornadomeet/archive/2012/03/23/2413363.html 以及理解部分参考:https://www.jianshu.com/p/4c905853711c DTW为(Dynamic Time Warping,动态时间归准)的简称。应用很广,主要是在模...转载 2018-12-11 16:53:01 · 710 阅读 · 0 评论