kaldi中文语音识别_基于thchs30(8)

本文介绍了Kaldi中用于中文语音识别的步骤,包括复制mfcc特征和cmvn到test_phone目录,处理训练和解码的词典,以及制作词图和音素图的过程。通过prepare_lang.sh脚本准备语言模型,使用gzip压缩和format_lm.sh格式化语言模型。
摘要由CSDN通过智能技术生成

接上回,我们继续看run.sh
#copy feats and cmvn to test.ph, avoid duplicated mfcc & cmvn #拷贝mfcc特征和cmvn到test.ph,避免重复的mfcc和cmvn
cp data/mfcc/test/feats.scp data/mfcc/test_phone && cp data/mfcc/test/cmvn.scp data/mfcc/test_phone || exit 1;

如果此时运行,会报错data/mfcc/test/feats.scp 找不到该文件,是因为我们之前在 run.sh中选择只对train进行处理,其实还需要对dev test 也进行处理,所以我们需要将dev test加上,然后重新进行处理,就不会报错了。
我们看一下data/mfcc/test/feats.scp    我们看到这个也是mfcc特征提取一样的,也有ark:标识,但是说话者ID都是D,说明是测试集的

我们看到/opt/kaldi/egs/thchs30/thchs30-openslr/data_thchs30/test下都是D开头的,说明就是测试集

我们看一下data/mfcc/test/cmvn.scp,里面

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值