reference:
http://blog.csdn.net/zhoubl668/article/details/8365716
测试数据可以从这个网站下载: http://www.statmt.org/europarl/ , 我测试下载的是 parallel corpus Bulgarian-English.
1.生成n-gram计数文件
./ngram-count -text ./test/europarl-v7.bg-en.en -order 3 -write ./test/europarl-v7.bg-en.en.counts
note: -text 表示输入的文件,就是我们的所有语音对应的文本文件,最好是提前做一个数据清理(把标点符号去掉,全都转化为大写或者小写)
-order 表示生成的是n-gram模型,词的长度最大是3
-write 写入一个计数文件
下面是生成的counts文件中的几行:
Uncooperative 1 #表示该词在文件中出现了一次
Uncooperative countries 1 <span style="font-family: Menlo;">#表示该词在文件中出现了一次</span>
Uncooperative countries of 1
propagate 6