不是非要写一篇的,是这个网上太少了,而且貌似也没有其他工具来做这项工作了。因此本文主要写怎么使用SRILM统计n-gram,并使用该工具得到的语言模型进行句子概率的计算。当然如果有更好的工具请大家一定要推荐一下。
1、安装
安装官方写的很简单,遇到问题,又很少有解答的,难道其他人都一次性安装成功了吗。
环境:unbuntu16.04 64bit
1.1 下载
SRILM下载地址:http://www.speech.sri.com/projects/srilm/download.html
1.2安装依赖
1.C/C++ compiler:编译器gcc 3.4.3及以上版本
2.GNU make:构建和管理工程的工具,解释Makefile里的指令,描述了整个工程所有文件的编译顺序和编译规则。这里是为了控制 SRILM 的编译和安装
3.GNU gawk:GNU所做的awk程序语言。对于文字资料的修改,对比,抽取等处理,使用c或passcal等不方便且费时,awk 能够以很短的程序完成。这里是处理SRILM里的一些脚本文件
4.GNU gzip:使用C语言编写的一种解压缩软件。这里是为了使 SRILM 能够处理.Z和.GZ后缀的压缩文件
5.bzip2:数据压缩软件,压缩效率更高。这里是使SRILM能处理.bz2后缀的压缩文件
6.p7zip:数据压缩软件。这里是使SRILM能处理7-Zip的压缩文件
7.csh:Unix shell的一种 特别注意我就是这个没有安装,找了一下午问题。
查看是否安装以上依赖,简单的办法就是在命令行下输入命令,比如“csh”,
最好要测试一下,因为貌似make报错不显示那个依赖没有安装。
csh
1.3 修改配置文件
主目录下修改Makefile文件
1.找到:
# SRILM = /home/speech/stolcke/project/srilm
另起一行输入 SRILM 的安装路径 SRILM = $(PWD)
2.找到:
通过 uname -m 命令可以看到我的机器架构是x86_64
MACHINE_TYPE :=