语音识别
文章平均质量分 69
Pandora91
这个作者很懒,什么都没留下…
展开
-
Kaldi脚本分析(6)——解码图构建
静态解码图构建的过程,就是将数据准备和预编译阶段得到的词典FST、语言模型FST、声学建模阶段得到的HMM拓扑FST以及可能的上下文关系FST,通过如下的公式进行组合优化处理,得到最终的HCLG图。Kaldi中对FST的很多操作与参考文献[1]中稍有不同,尤其是对消歧符号和权重推移等的处理上。原创 2017-08-25 11:21:00 · 6472 阅读 · 1 评论 -
Kaldi语音识别工具包简介及安装说明
1 Kaldi简介 Kaldi是一个开源的语音识别工具,整合了HTK的基本功能,同时也加入了深度神经网络的分类器(DNN)。可实现与文本无关的LVCSR系统,基于FST的训练与解码,支持多种标准的机器学习训练模型。 Kaldi相关文档可参考官网:http://www.kaldi-asr.org/ Kaldi内核采用c++语言编写,易于修改和扩展。有如下重要特点: Ø 有限状态原创 2017-09-05 10:33:42 · 7132 阅读 · 1 评论 -
Kaldi脚本分析(3)——单音素建模
1.1单音素模型脚本流程 单音素建模脚本(steps/train_mono.sh): #monophone steps/train_mono.sh--boost-silence 1.25 --nj $n --cmd "$train_cmd" data/mfcc/train data/lang exp/mono \ || exit 1; 输出在exp/mono中,下面按脚本tr原创 2017-09-05 11:06:11 · 3587 阅读 · 0 评论 -
Kaldi脚本分析(2)——特征提取
1特征提取 1.1特征提取概述 输入采样率为16kHz的音频计算一个音频文件中的总帧数(通常帧长25ms,帧移10ms)提取数据,可选做dithering(加一点噪声避免出现log0)预加重(如s’(t)= s(t) -0.97 s(t-1))和去除直流偏移乘上窗函数,如Hamming窗离散傅里叶变换FFT,并在每个频点(frequencybin)计算功率谱能量计算每个梅尔滤波器原创 2017-09-05 10:55:08 · 4423 阅读 · 0 评论 -
Kaldi脚本分析(5)——自适应方法
自适应的作用是,补偿实际数据与已经训练的三音素模型中声学条件不匹配的问题,包括说话人特性(说话方式、口音等)及环境特性(如录音设备、房间混响等)。在GMM-HMM模型中,自适应方法有特征空间变换和模型空间变换。Kaldi中主要采用的是特征空间变换方法: LDA、MLLT和fMLLR,其本质都是在训练过程中估计变换矩阵,然后构造变换后的特征,再迭代训练新的声学模型参数。LDA+MLLT针对环境特性,原创 2017-09-05 11:14:51 · 1465 阅读 · 0 评论