kenlm的使用

最新推荐文章于 2023-03-19 23:56:30 发布

weixin_30527551

最新推荐文章于 2023-03-19 23:56:30 发布

阅读量215

点赞数

原文链接：http://www.cnblogs.com/Climbing-Snail/p/9519079.html

版权

1.训练模型

install_path/bin/lmplz -o 3 -S 80% -T /temp <text >text.arpa

-o 表示n_gram 中的n（必选）
-S 内存使用（可选）
-T 临时文件（可选）
-text 待训练语料，必须分词
-text.arpa 输出为arpa格式的n_gram结果，如下图所示：

2.查询模型

为了更快的加载将 text.arpa 转换为 binary 文件

install_path/bin/build_binary text.arpa text.binary

测试

install_path/bin/query text.binary <test.txt >result.txt

结果如下图所示，输出每个句子的混淆度和未登录词，以及整个测试语料的混淆度和未登录词。

转载于:https://www.cnblogs.com/Climbing-Snail/p/9519079.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30527551

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Kenlm 使用

lm709409753的专栏

05-18

5207

总结工作中用到及学习的知识，也算自己的一个笔记。环境准备 #公司环境为Centos7.3yum install gcc gcc-c++yum install boostyum install boost-develyum install zlibyuminstallzlib-develwget-O-https://kheafield.com/code/kenlm.ta...

kenlm使用 C++

github_34781135的博客

12-16

1473

语言模型kenlm库的编译及C++接口使用简介源码编译依赖库安装修改CMakelist.txt注意自己工程中使用kenlm时cmakelist编写C++接口测试参考资料简介近期需要使用语言模型对句子打分，因此需要用到第三方开源库kenlm，在此记录下使用过程。因为python下使用kenlm比较简单，这里就不做介绍了，主要针对kenlm的编译到自己工程中的使用方法做一个大致记录。源码编译 k...

参与评论您还未登录，请先登录后发表或查看评论

KenLM使用教程

test

10-12

3794

1. 安装 git clone https://github.com/kpu/kenlm.git cd kenlm/ mkdir -p build cd build cmake .. make -j 32 安装过程中可能会出现没有libboost库，engin3，执行命令: sudo yum install boost-devel sudo yum install eigen3 其他linux发行版，自行查找对应的安装方式。测试安装是否成功，build/bin/lmplz，有显示则安装成功。将b

NLP之kenlm：kenlm的简介、安装、使用方法之详细攻略

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

03-19

5464

NLP之kenlm：kenlm的简介、安装、使用方法之详细攻略目录 kenlm的简介 kenlm的安装 kenlm的使用方法 kenlm的简介 kenlm是一款语言模型工具包。KenLM是一个高效的语言模型库，可以用于训练和评估n-gram语言模型。它提供了一个C++库和Python绑定，可以在Python中使用。KenLM Python库提供了一些方便的方法来加载和使用KenLM语言模型，包括计算句子概率、生成句子、计算句子的困惑度等。 KenLM估

KenLM的安装及使用

v-space的博客

10-12

2366

一、安装 git clone git@github.com:kpu/kenlm.git # git clone https://github.com/kpu/kenlm.git cd kenlm mkdir -p build cd build cmake .. make -j 16 注意：如果以上安装出错，可以拷贝已经编译好的即可。二、训练 build/bin/lmplz --vocab_estimate -o 3 --text your_text --limit_vocab_file vocab --

NLP（四十九）使用kenlm进行文本纠错

山阴少年

07-26

3818

本文将会介绍如何使用kenlm工具进行文本纠错。 kenlm是用C++编写的语言模型工具，可以方便、快速地计算n-gram。kenlm工具的首页网址为：https://kheafield.com/code/kenlm/，该工具的Github网址为：https://github.com/kpu/kenlm。关于kenlm的安装，本文不再详细介绍，网上有很多这方面的介绍。安装完kenlm工具包后，其文件夹目录结构如下： BUILDING CMakeLists.txt COPYING COPYING

2019-10-21-kenlm使用

weixin_43836433的博客

11-05

148

layout: post title: “kenlm使用” tag: 环境工具安装参考网址 https://blog.csdn.net/Nicholas_Wong/article/details/80013547 出现问题 cmake Could NOT find ZLIB (missing: ZLIB_LIBRARY) https://blog.csdn.net/bobay/art...

编译好的kenlm.zip

10-13

这个“编译好的kenlm.zip”文件包含已经预先编译好的 KenLM 库，使得用户无需自己编译源代码就可以直接在项目中使用，极大地简化了部署流程。 1. **KenLM 语言模型**：语言模型是自然语言处理中的核心组件，它的...

win10子系统python开发环境准备及kenlm和nltk的使用教程

09-18

本教程将指导您如何在Win10子系统中搭建Python开发环境，并使用kenlm和nltk这两个自然语言处理（NLP）库。首先，您需要开启Win10子系统。这可以通过“设置”>“应用”>“可选功能”>“添加功能”来实现，然后安装...

Kenlm初步使用----评估句子中"a/an"使用情况

天青如水的博客

10-12

2600

1 基本要求通过kenlm训练自己的语言模型，判别测试集中的句子是否存在a/an的使用错误。例如：in an sense , he is the antithesis of dagny是错误，而in an sense , he is the antithesis of dagny是正确的。 2 准备工作实验环境:Python3.7.3、Ubuntu16.04、ntlk、kenlm 训练预料:...

使用kenlm工具常见错误以及解决方案

weixin_30408675的博客

08-26

546

在学习NLP过程当中，语言模型使我们都要学习的一部分知识。常用的N-gram训练工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。在使用kenlm的过程中也是遇到了许多问题。环境的搭建：参照博客：https://www.cnblogs.com/jasmine-Jobs/p/7214758.html 以上亲测有效，但是要熟悉的知道linux环境下的各种安装命...

Kenlm的使用

bonjourdeutsch的博客

08-03

2196

安装 N-gram语言模型打分，我使用的是kenlm，kenlm是基于cmake编译的C++程序，非root权限下需要指定几个参数，还有一些依赖包需要手动装。 1.boost #去boost官网下载最新版的boost：http://www.boost.org ./bootstrap.sh --prefix=/home/huanghui ./b2 install 但是安装的时候报了一个很奇怪的错误： pyconfig.h: 没有那个文件或目录我查了一下，发现需要指定一个系统变量： wh

基于KenLM的句子打分项目

Dulpee的博客

02-20

3194

KenLM工具包基于统计语言模型当中的训练语料库方法在这里介绍一下KenLM模型 KenLM基本介绍工具介绍:https://kheafield.com/code/kenlm/ github地址:https://github.com/kpu/kenlm#kenlm 下载地址:http://kheafield.com/code/kenlm.tar.gz 在linux当中使用KenLM工具包 1....

kenlm使用研究

a857553315的博客

05-27

1141

yum install -y cmake yum install -y boost yum install -y boost-devel yum install -y boost-doc yum install -y zlib yum install -y zlib-devel yum install -y gcc gcc-c++ kernel-devel wget -O - https://...

PyCorrector——中文语言纠错模型文本纠错工具

Lmoermo的博客

08-28

1841

谐音字词，如配副眼睛-配副眼镜混淆音字词，如流浪织女-牛郎织女字词顺序颠倒，如伍迪艾伦-艾伦伍迪字词补全，如爱有天意-假如爱有天意形似字错误，如高梁-高粱中文拼音全拼，如xingfu-幸福中文拼音缩写，如sz-深圳语法错误，如想象难以-难以想象 1.use kenlm 1.1 kenlm打分 1.2 分词 1.3 （2或3_gram）打分 1.4 numpy矩阵处理 2.编辑距离 3.pandas use pycorrector 错误检测 ...

绝对最简单实用的kenlm语言模型的安装及使用

lijiaqi0612的博客

05-10

1万+

统计语言模型工具有比较多的选择，目前使用比较好的有srilm及kenlm，其中kenlm比srilm晚出来，训练速度也更快，号称单机版训练超级快，经过测试确实很快，支持大规模的语料训练，文件的输入格式一行行以空格隔开的文本。 kenlm训练语言模型用的是传统的“统计+平滑”的方法。读者可以跳过第一部分直接看第二部分，第一部分我只是描述一下我遇到的一个坑。 1.坑网上资料无非是各种弄个互相抄袭的...

Kenlm初步使用----NLP小作业的完成

天青如水的博客

10-23

1795

作业一：第一步:下载KenLM或者SRILM工具，下载中文或英文10万个句子的语料库。第二步:使用KenLM或SRILM工具，跑出自己的语言模型，将输出的概率表截图粘贴到word文档中。第三步:从下载的语料库中选择20个句子(自己造句也行)，比较手算概率和模型自动计算概率的差别。在Kenlm初步使用----评估句子中"a/an"使用情况一文，已经介绍了关于kenlm的初步情况，这里就直接给...

使用kenLM训练语言模型

Nicholas_Wong的博客

04-20

1万+

算是我自己安装使用过程的一个记录，中间也遇到一些问题。下载与安装下载 wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz 安装下载之后在kenlm目录下有一个readme.md文件。里面介绍了相关操作。按步骤输入如下命令： mkdir -p build cd build cmake ....

自然语言处理-错字识别（基于Python）kenlm、pycorrector