语音识别
会飞行的小蜗牛
这个作者很懒,什么都没留下…
展开
-
教你如何在树莓派上搭建语音识别服务
最近项目原因需要我完成一个在树莓派上的离线语音识别,忙活了近一周,起初用了开源的PocketSphinx,但是不得不说,识别率低的惊人,甚至可以说有些字词根本没法识别,除非你自己制作声学模型,不然这玩意儿就是个摆设。百度目前对像树莓派这种设备只支持在线识别,不能用。最后,万幸,科大讯飞提供了离线版本,而且还免费,还支持树莓派!接下来,根据我的摸索,教大家如何在树莓派上搭建语转载 2016-11-06 21:03:50 · 8437 阅读 · 5 评论 -
Kaldi 中文语音识别需要考虑的问题
转自:点击打开链接原文作者:英语流利说团队 李飞腾Kaldi语音识别1.声学建模单元的选择1.1对声学建模单元加入位置信息2.输入特征3.区分性技术4.多音字如何处理?5.Noise Robust ASR6.Deep Learning[DNN/CNN替换GMM]7.在手机等资源受限设备author:FeitengEmail:转载 2017-04-13 09:40:03 · 8393 阅读 · 0 评论 -
什么是 openFST,如何应用于语音识别?
转自:点击打开链接加权有限状态机 453加权有限状态机OpenFst学习资源FST在语音识别中的应用WFST in KaldiOpenFstOpenFst is a library for constructing, combining, optimizing, and searching weighted finite-state tr转载 2017-04-13 09:44:53 · 11132 阅读 · 5 评论 -
分分钟推导神经网络
推荐看这个连接:点击打开链接转载 2017-04-13 09:49:00 · 653 阅读 · 0 评论 -
Kaldi HCLG 深入理解
1. 相关部分包含的主要任务1.1 WFST Key Conceptsdeterminizationminimizationcompositionequivalentepsilon-freefunctionalon-demand algorithmweight-pushingepsilon removal1.2 HMM Key ConceptsMarkov ChainHid原创 2017-04-11 15:38:10 · 11663 阅读 · 4 评论 -
epoch、 iteration 和 batchsize 的理解
深度学习中经常看到epoch、 iteration和batchsize,下面按自己的理解说说这三个的区别:(1)batchsize:批大小。在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练;(2)iteration:1个iteration等于使用batchsize个样本训练一次;(3)epoch:1个epoch等于使用训练集中原创 2017-04-06 21:06:49 · 3692 阅读 · 0 评论 -
语音识别-HMM
1. HMM 的三个基本问题 1) Computing Likelihood (计算似然) 给定一个 HMM λ=(A, B)和 观察序列 O,计算似然 P(O|λ) 2) Decoding (解码) 给定一个观察序列O,和一个 HMM λ=(A, B),找到最优的隐藏序列Q 3) Learning (学习)原创 2017-02-21 18:30:57 · 929 阅读 · 0 评论 -
Kaldi nnet3 -------- Data Type
本文为 kaldi 官网关于 nnet3 的译文: 简介 本文覆盖最新的nnet3。为了了解Kaldi里的所有DNN,例如karel的版本,参考 Deep Neural Networks in Kaldi。nnet3的创建是为了以更自然的方式不需要实际编码就支持更多通用种类的网络,而不仅仅是反馈网络(例如RNN和LSTM)。和nnet2一样支持多...转载 2017-11-14 15:36:28 · 5148 阅读 · 5 评论 -
Kaldi WFST
HCLG.fst由四部分构成1. G:语言模型WFST,输入输出符号相同,实际是一个WFSA(acceptor接受机),为了方便与其它三个WFST进行操作,将其视为一个输入输出相同的WFST。2. L:发音词典WFST,输入符号:monophone,输出符号:词;3. C:上下文相关WFST,输入符号:triphone(上下文相关),输出符号:monophnoe;4. ...转载 2017-11-22 18:01:02 · 2829 阅读 · 0 评论 -
DNN-HMM 中 DNN 与 HMM 的关系
状态绑定参考:点击打开链接决策树的聚类参考:点击打开链接一、简单原理介绍在发音过程中,因为协同发音的影响,同一个音素在不同的位置,其发音变化很大,如下图所示:同样的元音[eh]在不同的单词中的发音在频域上区分非常明显。因为单音素monophone 是上下文独立的(context-independent)为了能够表示这种区别,因此提出了triphone的概念,triphone是根据左右音素来确定的,原创 2017-04-13 01:02:24 · 9560 阅读 · 0 评论 -
EM 算法在 GMM 学习中的应用
本内容摘自:李航-统计学习方法原创 2018-03-18 22:46:55 · 832 阅读 · 0 评论 -
如何用 Kaldi 训练一个 DNN 声学模型
1. 介绍: 首先,需要完成 标准的 GMM-HMM 声学模型的训练 训练 monophone model 是通过 GMM-HMM System 做 utterance-level transcriptions,即训练 label-audio 的映射 训练 triphone model 是通过 GMM-HMM System 做 phoneme-to-audio gli翻译 2017-04-11 21:15:11 · 13810 阅读 · 4 评论 -
语音识别中的 senone 是什么?
有时候,音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素。但它与亚音素不同,他们在波形中匹配时长度还是和单一音素一样。只是名字上的不同而已,所以我们更倾向于将这样的多元音素称为senone。一个senone的上下文依赖比单纯的左右上下文复杂得多,它是一个可以被决策树或者其他方式来定义的复杂函数。(英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素转载 2017-04-12 14:31:25 · 8825 阅读 · 1 评论 -
语音识别 Search and Decoding 总结
1. 先总结一下 lexical knowledge Lexical knowledge 中,每个 word HMM 由一系列 phone models,而每一个 phone model 由一系列 subphone states 组成。原创 2017-02-20 10:19:27 · 845 阅读 · 1 评论 -
理解维特算法
维特比算法说白了就是动态规划实现最短路径,只要知道“动态规划可以降低复杂度”这一点就能轻松理解维特比算法维特比算法是一个特殊但应用最广的动态规划算法,利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图——篱笆网络的有向图(Lattice )的最短路径问题而提出的。 它之所以重要,是因为凡是使用隐含马尔可夫模型描述的问题都可以用它来解码,包括今天的数字通信、原创 2017-02-20 11:34:14 · 806 阅读 · 0 评论 -
HMM-Computing Acoustic Likelihoods
目标:主要学习 HMM 计算似然如何应用在计算声学似然中。。。 HMM 计算声学似然:即计算 P(O|W)。实际原理:在给定一个 HMM state,计算一帧(10ms)语音片段抽取特征特征向量对应的似然。 其中,HMM 中 B 矩阵就是所有观察似然的矩阵,对应到声学中,就是各语音片段特征向量似然矩阵。 eg: 给定一个 individual state qi 和一个原创 2017-02-24 09:58:28 · 561 阅读 · 0 评论 -
语音识别 Embedded Training
1. 先看一下声学模型的三个要素 Q [ = q1 q2 ...qN ]:subphones 状态集合 A [ = a01a02 ...an1 ...ann ]:subphones 转移概率矩阵 A, Q 和 A 共同构成 发音字典 (pronunciation lexicon),一般 self-loop 和 到下一个 subphon原创 2017-02-21 11:21:39 · 2408 阅读 · 6 评论 -
Kaldi 学习总结
1. 声学训练时,HMM,GMM 都用在什么地方原创 2017-02-16 17:33:26 · 2846 阅读 · 1 评论 -
深度机器学习中的batch的大小对学习效果有何影响?
谈谈深度学习中的 Batch_SizeBatch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。首先,为什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 (Full Batch Learning )的形式,这样做至少有 2 个好处:其一,由全数据集确定的方向能够更好地代表样本总体转载 2017-04-06 21:05:31 · 3585 阅读 · 0 评论 -
an empirical study of learning rates in deep neural networks for speech recognition 总结
结论源自:google 论文《AN EMPIRICAL STUDY OF LEARNING RATES IN DEEP NEURAL NETWORKS FORSPEECH RECOGNITION 》该基于与现有所有 learning rate schedulding schemes 对比提出 “AdaDec” 1. 目前,最有效的 随机梯度下降算法是:minibatch s原创 2017-04-10 18:19:06 · 855 阅读 · 0 评论 -
Kaldi-dnn 学习
1. Kaldi 中实现的 dnn 共 4 种: a. nnet1 - 基于 Karel's 的实现,特点:简单,仅支持单 GPU b. nnet2 - 基于 Daniel Povey p-norm 的实现,特点:灵活,支持多 GPU、CPU c. nnet3 - nnet2 的改进 d. (nnet3 + chain) - Daniel Povey 改进的原创 2017-03-14 21:51:36 · 10498 阅读 · 1 评论 -
深度学习项目工作流程指导
开始:先考虑两个问题1. 衡量一下,在你要完成的任务上,人类水平怎样?2. 你的训练数据和测试数据是否服从相同的概率分布?衡量人类水平衡量人类水平的真正目标,是为了估算贝叶斯错误率。知道贝叶斯错误率,有助于算出你的模型对于训练数据是欠拟合还是过拟合。更清楚地说,它有助于我们衡量吴恩达所定义的“Bias(偏差)”,稍后在工作流程中会用到。注:在统计分类中,贝叶斯错误率是指一类转载 2017-04-11 14:57:00 · 2173 阅读 · 0 评论 -
汉语拼音音节的歧义指数
汉语拼音音节的歧义指数 冯志伟 如果不计声调,基本的汉语音节只有405个,这405个汉语音节可以表示全部汉字的读音。而《通用规范汉字表》包含了8105个通用汉字,在这种情况下,在一般使用中,一个汉语音节平均要表示20个以上的汉字(8,105/405 = 20.01)。 例1 在《通用规范汉字表》(转载 2017-04-12 15:54:19 · 1936 阅读 · 0 评论 -
声学模型与语音模型是如何联系在一起的?
1. 先讲解一下语音识别时内部机理 如图1,识别过程要计算 声学概率 P(X|W) 和 语音概率 P(W)如图2,语音模型计算出的概率为P(W),计算声学概率时,是给定 W,计算 P(Y|W)。wav波形会被切片->提取特征MFCC后与 HMM 的 GMM state 关联, ...原创 2018-12-16 11:54:33 · 3035 阅读 · 0 评论