1,下载
2,安装
make SRILM=$PWD
3,配置
将bin和bin/i686-m64添加到PATH环境变量中
4,测试
./ngram-count -help
5,海量语料训练
由于对于大规模语料进行语言模型的训练,经常会导致内存问题。
经过测试,用srilm处理一个3G的语料,训练3元语言模型,32G内存根本就不够用。
解决方案:把文件给分开了,然后分别算词频并merge起来,做成一个语言模型,具体参见。
操作步骤:
1 把文件给分割开,放在一个目录下,然后生成一个文件名列表文件,如filelist