自然语言处理(NLP)预备知识

最新推荐文章于 2022-04-13 20:23:10 发布

zhangxiangchn

最新推荐文章于 2022-04-13 20:23:10 发布

阅读量383

点赞数 1

分类专栏：自然语言处理文章标签： nlp 自然语言处理语言模型 n-gram

本文链接：https://blog.csdn.net/weixin_39561100/article/details/89363779

版权

1 篇文章 0 订阅

订阅专栏

# 语言模型，Language model

# 自然语言处理中N-Gram模型的Smoothing算法（对于上面语言模型中平滑算法的一个介绍）

# 搜狗新闻语料数据 GBK 转换为 UTF-8 的方法

cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>" > a.txt

# kenlm语言模型的训练

首先编译工具包：

wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz
mkdir kenlm/build
cd kenlm/build
cmake ..
make -j2

训练过程：

build/bin/lmplz -o 3 --verbose_header --text sougoucorpus.txt --arpa result/sougoucorpus.arps

其中：

1）-o后面的5表示的是5-gram,一般取到3即可，但可以结合自己实际情况判断。

2）sougoucorpus.txt 为分词后的文件路径，result/sougoucorpus.arps为生成的训练模型路径

转换成二进制文件可以加快读取速度

build/bin/build_binary result/sougoucorpus.arps result/sougoucorpus.klm

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注