关于kaldi中yesno脚本的详细分析，以及脚本的理解

Xwei1226

于 2018-04-27 15:26:00 发布

阅读量3k

点赞数 3

分类专栏： kaldi 文章标签： kaldi-yesno ASR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xwei1226/article/details/80108173

版权

kaldi 专栏收录该内容

20 篇文章 7 订阅

订阅专栏

本人经过一番寒彻骨，学习shell、linux、kaldi，终于将kaldi中最简单的样例理解，由于过于口语话，文中可能出现措辞不当，忘谅解。

首先我们打开kaldi中yesno例子，打开脚本run.sh，第一行是脚本解释器，，我们采用bash这个脚本解释器；

然后是train_cmd,decode_cmd两个变量，进行本地运行。对于接下来的if条件语句，如果你已经下载了yesno的语料，则可以将其注释；

然后设置两个变量train_yesno、test_base_name,分别作为训练目录和测试目录，之后采用rm -rf data exp mfcc删除冗余数据；

接下来就是进行对下载的数据处理成kaldi可以训练解码的格式，首先调用local/prepare_data.sh脚本，以wave_yesno为参数，对数据进行处理。然后运行脚本prepare_dict.sh，建立字典，然后运行prepare_lang.sh，这一步的目的创建音素等下面建模需要的音素，目录等；

然后进行特征提取，yesno脚本是提取mfcc特征。关于数据处理技术中，数据预处理技术主要包括样本特征归一化和全局特征标准化两种技术。如果每个样本均值的变化与处理问题无关，就应该将特征均值归零，减小特征相对于深度神经网络模型的变化。在语音识别任务中，提取完mfcc特征后，往往采取倒谱均值归一化（CMN），是在句子内减去美尔倒谱系数（MFCC）特征的均值，可以减弱声学信道扭曲带来的影响；关于全局特征标准化目标是使用全局转换缩放每维数据，使得最终特征向量出于相似动态范围内。在语音识别任务中，对于实数数据，例如MFCC和FBANK，通常会使用一个全局转换将每维特征归一化为均值0，方差1。经过特征归一化后的数据，往往能在后续处理的过程中能取得较好的效果。如果不做特征归一化，能量维或者MFCC特征的第一维会遮蔽其他维度特征，导致不能充分训练语音特征。

下面进行单因素训练，高斯核数目设置为400，然后进行图像化解码；

之后进行解码操作，我的理解是：kaldi里实现的就是在不同层面有不同的FST,用到的就是WFST，不同层次的有限状态转换机结合到一起，也就是H*C*L*G（有剪枝），然后搜索最佳路径；

最后对我们的训练好的模型进行score，里面涉及到shell文本处理的三大利器：awk、gerp、sed，这里本人就不做详细说明了，这就是大致完整的yesno脚本的详解。

关于linux、kaldi学习本人还是处于初级阶段，欢迎大佬或者新手给予我建议，博主QQ76859420.

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
关于kaldi中yesno脚本的详细分析，以及脚本的理解

本人经过一番寒彻骨，学习shell、linux、kaldi，终于将kaldi中最简单的样例理解，由于过于口语话，文中可能出现措辞不当，忘谅解。首先我们打开kaldi中yesno例子，打开脚本run.sh，第一行是脚本解释器，，我们采用bash这个脚本解释器；然后是train_cmd,decode_cmd两个变量，进行本地运行。对于接下来的if条件语句，如果你已经下载了yesno的语料，...
复制链接

扫一扫

专栏目录

Xwei1226 CSDN认证博客专家 CSDN认证企业博客

码龄7年

58: 原创

3万+: 周排名

58万+: 总排名

38万+: 访问

: 等级

4741: 积分

498: 粉丝

229: 获赞

209: 评论

964: 收藏

私信

关注

热门文章

分类专栏

kaldi 20篇
感悟 2篇
paper reading 4篇
matlab 1篇
python 11篇
shell 3篇
杂谈 1篇
linux基本操作 12篇
语音工具 2篇
语音识别-深度学习 64篇
CNN 4篇
TensorFlow基本操作 16篇
全连接网络 4篇
RNN 3篇
机器学习 1篇
人脸识别 2篇
sklearn 3篇
git 1篇
pytorch 2篇

最新评论

python中计算BLEU分数
xing_wan: 显示有bug怎么办，运行from nltk.translate.bleu_score import sentence_bleu reference = [['this', 'is', 'small', 'test']] candidate = ['this', 'is', 'a', 'test'] score = sentence_bleu(reference, candidate, weights=(1, 0, 0, 0)) print(score) 显示bug为TypeError: Fraction.__new__() got an unexpected keyword argument '_normalize'
基于树莓派语音控制—LED开关控制
qq_53488001: 楼主这个代码开源了吗
语音识别中特征提取MFCC、FBANK、语谱图特征提取
没头发的小言: filepath = '/home/zhangwei/PycharmProjects/ASR_MFCC/datalist/test.word.txt' 这个里面的路径是随便给一个就可以了吗
语音识别中特征提取MFCC、FBANK、语谱图特征提取
m0_74272131: 博主麻烦也拉我一下Hzk2582809329，谢谢！
语音识别三年研究感想
qq_41787484: 您好博主，我是研0一枚，马上就是詹青燃前辈的学弟了哈哈非常想进入社群和大家交流，vx是17602538773，非常感谢！

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。