使用KenLM训练统计语言模型并使用模型（based on Linux14.04）

最新推荐文章于 2024-04-22 09:41:10 发布

沙漠之狐MSFollower

最新推荐文章于 2024-04-22 09:41:10 发布

阅读量4k

点赞数

分类专栏：自然语言处理与生成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LiuPeiP_VIPL/article/details/78267317

版权

自然语言处理与生成专栏收录该内容

8 篇文章 2 订阅

订阅专栏

参考文档：

http://thegrandjanitor.com/2015/12/28/using-arpa-lm-with-python/

https://www.52ml.net/4816.html

http://www.cnblogs.com/apexchu/p/5015961.html

http://blog.csdn.net/zh515858237/article/details/54692486

http://blog.csdn.net/fxjtoday/article/details/6059874

之前看过神经网络语言模型，但是自己写的代码并不理想。组里要使用语言模型，于是调研比较之后选择使用KenLM。原因是：KenLM是C++写的语言模型，KenLm比SRILM要好一些，支持单机大数据的训练。Berkeleylm是用java写的，号称跟KenLM差不多,但我不熟悉Java。

由于安装错误引发了一系列其他的问题，当然同时也学到了东西。

问题发现并学习（1）---python和C/C++混合编程：

我们需要在机子上安装cython编译器。pip install cythton即可安装。或者使用https://github.com/cython/cython/wiki/Installing进行源码安装。Cython代码和python代码不一样，必须要进行编译。编译过程分为两个阶段：<1>Cython编译.pyx（其头文件为.pxd）为.c或者.cpp文件。<2>C编译器将.c/.cpp文件编译成.so文件（Linux版本）或.pyd文件（Windows版本）。具体的步骤一可以来参考http://blog.csdn.net/daniel_ustc/article/details/77622895或者http://www.jianshu.com/p/0dffe9aeba29 或者http://www.jyguagua.com/?p=2868来进行。步骤二我们可以参考http://blog.csdn.net/acb0y/article/details/6553051或者http://blog.csdn.net/qq_33850438/article/details/52014399。步骤二完成后，我们就可以在python代码中进行调用了生成的.so或.pyd文件了。

问题发现并学习（2）--安装KenLM并使用：

刚开始我是使用的官网指南http://kheafield.com/code/kenlm/进行安装的（毕竟官方嘛）。并参考了http://blog.csdn.net/zh515858237/article/details/54692486、http://www.osyunwei.com/archives/5530.html，以及进行 < 安装bzlib：打开网址http://www.bzip.org→下载最新版本的bzlib→解压缩到本地→ 在bzlib的解压缩路径下执行make，sudo make install > 进行前期的依赖环境配置。但是安装之后，跑样例的example.py显示：ImportError: No module named 'kenlm'。当时我傻傻的以为是同目录的kenlm.cpp需要转换成kenlm.so才能调用。但是直到看了http://thegrandjanitor.com/2015/12/28/using-arpa-lm-with-python/，我才恍然大悟：原来kenlm没有安装成功啊！！！顺着这篇blog和以前可能安装好的环境进行再次安装。之后，在linux命令行import kenlm，这次正常。然后，参考https://www.52ml.net/4816.html、https://www.52ml.net/4813.html、http://www.cnblogs.com/zidiancao/p/6067147.html、http://www.pythontip.com/blog/post/7217/、https://www.52ml.net/4813.html进行模型训练和模型使用。对于语言模型的模型评估，后续将继续在本文更新。

沙漠之狐MSFollower

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
使用KenLM训练统计语言模型并使用模型（based on Linux14.04）

参考文档： http://thegrandjanitor.com/2015/12/28/using-arpa-lm-with-python/ https://www.52ml.net/4816.html http://www.cnblogs.com/apexchu/p/5015961.html http
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。