关于语言模型的一些参考资料:
1. 从剪枝法到低秩分解,手机端语言模型的神经网络压缩(https://baijiahao.baidu.com/s?id=1579577852881353039&wfr=spider&for=pc)
2. 语言模型srilm(一) 基本用法(https://blog.csdn.net/xmdxcsj/article/details/50353689)
3. 语言模型srilm(二) prune剪枝(https://blog.csdn.net/xmdxcsj/article/details/50321613)
4. SunPinyin代码导读 - 语言模型的训练(https://blog.csdn.net/chenlei0630/article/details/22298063)(注:在输入法语言模型训练中讲了语言模型的剪枝,过程详细)
Kaidi使用记录
1. 安装(Kaldi学习笔记(二)——实例yesno和timit的应用)
2. 运行timit过程中,报错:qsub not found. 原因:cmd.sh中,对应修改(参考https://blog.csdn.net/rooki_men/article/details/52120681)
3. timit例子运行全纪录(kaldi的TIMIT实例一 https://www.cnblogs.com/welen/category/1073824.html 从零开始kaidi)
timit/s5/data/train文件下:
$ ls
cmvn.scp glm spk2utt stm utt2spk
feats.scp spk2gender split30 text wav.scp
其中,
text文件,记录了每个发音id与其对应的文本
spk2gender,说话人id,性别( f , m )
wav.scp文件,<recording-id> <extended-filename>,后者可能为wav文件
utt2spk文件,<utterance-id> <speaker-id>
feats.scp文件,
指出了发音id,其对应的mfcc特征位于ark文件的位置
cmvn.scp文件,说话人id,特征ark位置