kaldi资料

6人阅读 评论(0) 收藏 举报
分类:

Dan povey 主页,有kaldi的详细入门文档,以及相关的论文
kaldi官网
kaldi—github

系统搭建过程及生成文件解释:
http://blog.sina.com.cn/s/blog_444061c70101hx7l.html
单音素训练:
https://blog.csdn.net/u010731824/article/details/69668765
https://blog.csdn.net/baidu_36137891/article/details/77849041
https://blog.csdn.net/fengzhou_/article/details/77996244
三音素训练:
https://blog.csdn.net/u010731824/article/details/70161677
决策树状态绑定:
https://blog.csdn.net/u010731824/article/details/69668647

一些查看输出文件命令(配置好PATH后,在s5demo下运行):

查看MFCC特征参数,对应文本id

copy-feats ark:mfcc/raw_mfcc_train.1.ark ark,t:- | head

查看CMVN,对应说话人id

copy-matrix ark:exp/mono/cmvn.ark ark,t:-

查看决策树:

copy-tree --binary=false exp/mono/tree - | less

画出决策树:

draw-tree data/lang/phones.txt exp/mono/tree | dot -Tps -Gsize=8,10.5 | ps2pdf - ~/tree.pdf

查看训练图:

fstcopy 'ark:gunzip -c exp/mono/graphs.fsts.gz|' ark,t:- 

构造训练的fst网络,从源码级别分析,是每个句子构造一个phone level 的fst网络。这里采用预编译的原因是,可以尽量减少占用训练时间。$data/text 中包含对每个句子的单词级别(words level)或音素级别(phone level)的标注,L.fst是词典的fst表示,作用是将一串的音素转换成单词。构造monophone解码图就是先将text中的每个句子,生成一个fst(类似于语言模型中的G.fst,只是相对比较简单,只有一个句子),然后和L.fst进行composition 形成训练用的音素级别(phone level)fst网络(类似于LG.fst)。fsts.JOB.gz 中使用key-value 的方式保存每个句子和其对应的fst网络,通过 key(句子索引)就能找到这个句子的fst网络,value中保存的是句子中每两个音素之间互联的边(Arc),例如句子转换成音素后,标注为:”a b c d e f”,那么value中保存的其实是 a->b b->c c->d d->e e->f这些连接(kaldi会为每种连接赋予一个唯一的id),后面进行 HMM训练的时候是根据这些连接的id进行计数,进一步得到音素内(intra)状态的转移概率和音素间(inter)状态的转移概率。

查看音素与状态的对齐:

show-alignments data/lang/phones.txt exp/mono/40.mdl exp/mono/40.occs | less

查看训练中的文本与转移状态的对齐,注意,显示的是每个文本和与之对齐的状态转移id

copy-int-vector "ark:gunzip -c exp/mono/ali.1.gz|" ark,t:- | head -n 2

状态转移id可如下查看:

show-transitions data/lang/phones.txt exp/mono/0.mdl  

pdf个数查询:

gmm-info --print-args=false exp/mono/0.mdl | grep "gaussians" | awk '{print $NF}'

模型参数查看,分为转移模型和发射模型参数:

gmm-copy --binary=false exp/mono/30.mdl - 
查看评论

kaldi资料合集下载

应kaldi学习 语音深度学习群大家的强烈要求,现把kaldi的zilia
  • u010384318
  • u010384318
  • 2014-07-07 16:28:36
  • 3817

kaldi语音识别的资料

1、https://github.com/kaldi-asr/kaldi 一个开源的kaldi资料 2、http://blog.csdn.net/xiaoding133/article/detai...
  • sheshou199
  • sheshou199
  • 2016-11-21 16:04:53
  • 882

kaldi的全部资料第二版

  • 2014年08月16日 20:30
  • 1.34MB
  • 下载

关于kaldi的一些其他资料

最近,终于跑完kaldi的timit里面所有的例子,最大的感触就是机器要给力,所以拥有一个很好配置的电脑对于做语音识别的人来说是多么重要。我不能定义自己是完全做语音识别的,因为我导师的原因,我只能利用...
  • u010384318
  • u010384318
  • 2014-03-20 17:09:38
  • 2408

kaldi资料合集

  • 2014年07月07日 16:25
  • 1.04MB
  • 下载

kaldi学习资料

  • 2015年11月12日 12:58
  • 3.35MB
  • 下载

kaldi详细介绍资料

  • 2017年11月21日 10:30
  • 2.93MB
  • 下载

Kaldi 学习总结

1. 声学训练时,HMM,GMM 都用在什么地方
  • dearwind153
  • dearwind153
  • 2017-02-16 17:33:26
  • 752

关于kaldi群的年终总结

去年的这个时候,写了一篇timit数据库的分享,分享这个的原因也是因为自己之前困于没有数据库,但是分享一段时间后,大家提醒我版权问题,我就停止了,相信需要的都下载了.想想这个博客到现在,正好一年,这一...
  • u010384318
  • u010384318
  • 2014-12-31 16:34:19
  • 1531

Centos下kaldi的学习(一)cuda的安装

1、安装Centos:不多说了,就是用u盘启动安转,记住不要选最小安装,日后用起来不方便。2、安装cuda :第一次其实我安装好了cuda、kaldi,但是在检测cuda matrix的时候没有检测到...
  • Cwy_yeah
  • Cwy_yeah
  • 2018-02-18 11:57:26
  • 78
    个人资料
    等级:
    访问量: 5082
    积分: 349
    排名: 21万+