KenLM使用教程

最新推荐文章于 2023-03-19 23:56:30 发布

爱可乐的松鼠

最新推荐文章于 2023-03-19 23:56:30 发布

阅读量3.8k

点赞数 7

分类专栏：语音识别文章标签：语音识别

本文链接：https://blog.csdn.net/qq_33424313/article/details/120726582

版权

语音识别专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文详细介绍了如何安装和使用KenLM工具进行N-gram语言模型的训练，包括安装步骤、训练命令及参数解释。通过Python接口展示了如何加载模型并进行文本评分。此外，还提及了安装过程中可能遇到的问题及其解决方案。

摘要由CSDN通过智能技术生成

1. 安装

git clone https://github.com/kpu/kenlm.git
cd kenlm/
mkdir -p build
cd  build
cmake ..
make -j 32

安装过程中可能会出现没有libboost库，engin3，执行命令:

sudo yum install boost-devel
sudo yum install eigen3

其他linux发行版，自行查找对应的安装方式。
测试安装是否成功，build/bin/lmplz，有显示则安装成功。将bin目录加入PATH，这样在任意目录下都可以使用bin下面的命令。

2. 训练

基本用法：

lmplz -o N --verbose_header --text your_corpus --arpa model.arpa

将.arpa转成.bin效果是一样的，但是速度会更快。

build_binary -s test.arpa test.bin

参数解释：
(1) --vocab_estimate
为了在corpus count计算预分配内存，默认词表大小为1000000，可以根据实际的词表大小进行设置（稍大词表大小）
(2) --verbose_header
生成的arpa文件头部显示一些信息，如各个文法元组的个数
(3) --text
需要训练的文本，事先得预处理好，去标点，正则化等等，训练词级别的N-gram需要进行分词，字级别的N-gram，只要把各个字符用空格空开就可
(4) --arpa
生成的arpa文件的名称
(5) --prune
剪枝操作，使用方法如： --prune 1 1 3 4，首先这四个位置的数字表示对应元组词频的阈值，即小于这个词频的元组会被剪枝掉，如 4 表示4-gram中元组出现次数小于4的需要被剪枝。另外需要注意，这一串数字需要满足 非递减 。
(6) --limit_vocab_file
指定词表文件，不在词表的字都会被剪枝掉。词表的形式是，用空格隔开每个单元，如我你他
(7) --discount_fallback
平滑操作
(8) --interpolate_unigrams
为了模拟srilm的实现，这个几乎用不上

3. Python接口

安装

pip install kenlm

以 kenlm/lm/test.arpa为例：

import kenlm
model=kenlm.LanguageModel('test.arpa') # model=kenlm.LanguageModel('test.bin')一样的
print(model.score('this is a sentence.',bos = True,eos = True))