n-gram统计 计算句子概率 SRILM安装使用

不是非要写一篇的,是这个网上太少了,而且貌似也没有其他工具来做这项工作了。因此本文主要写怎么使用SRILM统计n-gram,并使用该工具得到的语言模型进行句子概率的计算。当然如果有更好的工具请大家一定要推荐一下。

1、安装

安装官方写的很简单,遇到问题,又很少有解答的,难道其他人都一次性安装成功了吗。

环境:unbuntu16.04 64bit

1.1 下载

SRILM下载地址:http://www.speech.sri.com/projects/srilm/download.html

1.2安装依赖

  1.C/C++ compiler:编译器gcc 3.4.3及以上版本
  2.GNU make:构建和管理工程的工具,解释Makefile里的指令,描述了整个工程所有文件的编译顺序和编译规则。这里是为了控制 SRILM 的编译和安装
  3.GNU gawk:GNU所做的awk程序语言。对于文字资料的修改,对比,抽取等处理,使用c或passcal等不方便且费时,awk 能够以很短的程序完成。这里是处理SRILM里的一些脚本文件
  4.GNU gzip:使用C语言编写的一种解压缩软件。这里是为了使 SRILM 能够处理.Z和.GZ后缀的压缩文件
  5.bzip2:数据压缩软件,压缩效率更高。这里是使SRILM能处理.bz2后缀的压缩文件
  6.p7zip:数据压缩软件。这里是使SRILM能处理7-Zip的压缩文件
  7.csh:Unix shell的一种 特别注意我就是这个没有安装,找了一下午问题。
查看是否安装以上依赖,简单的办法就是在命令行下输入命令,比如“csh”,
最好要测试一下,因为貌似make报错不显示那个依赖没有安装。

csh

1.3 修改配置文件

   主目录下修改Makefile文件
   1.找到:

     # SRILM = /home/speech/stolcke/project/srilm

     另起一行输入 SRILM 的安装路径 SRILM = $(PWD)

    2.找到:
     通过 uname -m 命令可以看到我的机器架构是x86_64

     MACHINE_TYPE :=

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值