# 语言模型,Language model
http://www.statmt.org/book/slides/07-language-models.pdf
# 自然语言处理中N-Gram模型的Smoothing算法(对于上面语言模型中平滑算法的一个介绍)
https://blog.csdn.net/baimafujinji/article/details/51297802
# 搜狗新闻语料数据 GBK 转换为 UTF-8 的方法
cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>" > a.txt
# kenlm语言模型的训练
首先编译工具包:
wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz
mkdir kenlm/build
cd kenlm/build
cmake ..
make -j2
训练过程:
build/bin/lmplz -o 3 --verbose_header --text sougoucorpus.txt --arpa result/sougoucorpus.arps
其中:
1)-o后面的5表示的是5-gram,一般取到3即可,但可以结合自己实际情况判断。
2)sougoucorpus.txt 为分词后的文件路径,result/sougoucorpus.arps为生成的训练模型路径
转换成二进制文件可以加快读取速度
build/bin/build_binary result/sougoucorpus.arps result/sougoucorpus.klm