语言模型kenlm库的编译及C++接口使用
简介
近期需要使用语言模型对句子打分,因此需要用到第三方开源库kenlm,在此记录下使用过程。因为python下使用kenlm比较简单,这里就不做介绍了,本博客主要针对将kenlm编译到自己工程中的方法做一个大致记录。
源码编译
kenlm编译需要依赖几个库,如下:
zlib、bzip2、Boost、xz
具体详见:
https://kheafield.com/code/kenlm/dependencies/
依赖库安装
- boost安装
下载boost_1_62_0.tar.gz并解压
./bootstrap.sh
./b2 install - zlib安装
下载xz-5.2.2.tar.gz并解压
cd xz-5.2.2
./configure
make
make install - zlib安装
下载 zlib-1.2.11.tar.gz并解压
cd zlib-1.2.11
./configure
make
make install - bzip2安装
下载bzip2-1.0.6.tar.gz并解压
cd bzip2-1.0.6/
make
make install
修改CMakelist.txt
kenlm源码默认编译生成静态库文件,如下所示:
为了方便在自己项目中使用,需要修改自带的CMakelist.txt文件,编译成动态库文件
如下所示:
具体步骤如下:
在安装完依赖库后,修改kenlm源码中的CMakelist.txt文件,一共需要修改四个,路径分别为
kenlm/lm/CMakeLists.txt、kenlm/lm/filter/CMakeLists.txt、kenlm/lm/builder/CMakeLists.txt、kenlm/util/CMakeLists.txt
修改add_library()命令,示例如下:
add_library(kenlm_builder ${
KENLM_BUILDER_SOURCE}) 改为add_library(kenlm_builder SHARED ${
KENLM_BUILDER_SOURCE})
将生成静态库的都改为动态库
注意
编译时可能会报错误:
这是因为编译libbz2.a时没有采用 -fPIC
解决方法:修改 zlib-1.2.11/Makefile文件,将CFLAGS行改