kaldi LibriSpeech教程

前言

因为我这里在服务器上下载数据很慢,所以,选择在别的地方下载好数据,然后上传过去的方式。稍微复杂一点。写个教程记录下.

 

1 下载训练数据 & 字典数据

data_url=www.openslr.org/resources/12 lm_url=www.openslr.org/resources/11

 

⚠️ data_url下的数据需要做解压,lm_url的数据不可以.

1 data_url的数据可以随便放,按照下面修改路径即可,另外,数据下载时下载

dev-clean test-clean dev-other test-other train-clean-100 即可

2 将im_url下载的数据拷贝到 egs/librispeech/s5/data/local/lm/ [没有目录就创建]

在该目录下执行:

ln -sf 3-gram.pruned.1e-7.arpa.gz lm_tgmed.arpa.gz ln -sf 3-gram.pruned.3e-7.arpa.gz lm_tgsmall.arpa.gz ln -sf 3-gram.arpa.gz lm_tglarge.arpa.gz ln -sf 4-gram.arpa.gz lm_fglarge.arpa.gz

 

2 修改egs/librispeech/s5/run.sh脚本

7 行: data=data_url下载下来解压好的地址[例如:xxx/LibriSpeech/xxx], data=xxx 13行: stage=2

 

3 执行run.sh

运行时间比较长,请注意。

 

4 测试模型

1 . 拷贝egs/voxforge/online_demo到egs/librispeech中

在egs/librispeech/online_demo下执行:

mkdir online-data mkdir work cd online-data mkdir audio mkdir models

 

2 拷贝模型

egs/librispeech/s5/exp

在该目录下寻找想要测试的模型,举例子:tri2b

cp -r final.mdl ../../../online_demo/online-data/models/tri2b cp -r final.mat ../../../online_demo/online-data/models/tri2b cp -r 35.mdl ../../../online_demo/online-data/models/tri2b cp -r words.txt ../../../../online_demo/online-data/models/tri2b cp -r HCLG.fst ../../../../online_demo/online-data/models/tri2b

1 final.mdl 模型文件

2 words.txt 字典

3 HCLH.fst 有限状态机

3 拷贝wav文件

随便找几首,放到audio中即可。

⚠️: 创建一个trans.txt,里面放着这个wav文件的名字

 

4 修改run.sh

16 行:ac_model_type= 修改为model名称,例如:tri2b 31-39行:注释掉 28行:trans_matrix=$ac_model/final.mat 87行:$ac_model=model 修改为$ac_model=final.mdl 88行:--acoustic-scale=0.0769 后面增加 --left-context=3 --right-context=3

 

5 执行即可

 

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值