Ubuntu12 64位 SRILM 环境搭建 _from sratch

一 环境搭建

1. 安装依赖软件时 出现:

E: Problem with MergeList /var/lib/apt/lists/cn.archive.ubuntu.com_ubuntu_dists_dapper_multiverse_binary-i386_Packages 
E: 无法解析或打开软件包的列表或是状态文件

解决办法:

#sudo rm /var/lib/apt/lists/* -vf
#sudo apt-get update
更新源也可能出错,不行就重试或重启一次,应该没问题。

http://blog.52nlp.org/ubuntu-64-bit-system-srilm-configuration

2.安装gawk

#sudo apt-get install gawk

官网推荐的 

  • GNU gzip to unpack the distribution, and to allow SRILM programs to handle ".Z" and ".gz" compressed datafiles (highly recommended).
  • bzip2 to handle ".bz2" compressed files (optional).
  • p7zip to handle "7-zip" compressed files (optional).
  • XZ Utils to handle ".xz" compressed files (optional).
我测试已安装 gzip 其他包就没有选了。

3.下载srilm.tgz 官网就有 打不开的话链一个云盘文件:云盘 Srilm

将其放在要安装的目录,解压:

#tat zxvf srilm.tgz

#tar zxvf FileName.tar.gz

(解压命令 参见 http://quanminchaoren.iteye.com/blog/888447)


4.安装过程 参见:

http://blog.52nlp.org/ubuntu-64-bit-system-srilm-configuration

讲解的很详细。最后test 那一句不必在意。

编译好后,可执行文件在 srilm/bin/i686-a64中。


二 运行

为了命令好用一些,我把bin加入了环境变量,(修改的是当前用户的环境变量):

#sodu gedit ~/.profile

在文件末尾添加:

export PATH="$PATH:marywork/programFiles/srilm/bin/i686-a64/bin"  

(注:这个路径要从用户下面 即home/user 下面开始写,如home/mary 应该这里修改的是当前用户的环境变量)

修改完后重启Ubunut 变量生效,这样就可以在其他路径下使用这些工具命令了。


下面演示一个简单的例子:

1. 根据训练预料库 统计 n_gram 的频次信息

#ngram-count -text combine.txt -order 3 -write combine3.count


2.根据统计词频信息 计算n_gram 概率,生成语言模型的参数

#ngram-count -read combine3.count -order 3 -lm combine.lm -interpolate kndiscount


3.根据语言模型 评价句子和文章的困惑度

#ngram -ppl lmQuestionDemo.txt -order 3 -lm combine.lm -debug 1 > combine.ppl


最基本的步骤就完成了,下面介绍一些参数:

-debug 参数:

0 只给出整篇文章的困惑度(默认的 即没有该参数时的输出 )

1 给出每句话的困惑度 最后也给出整片文章的困惑度

2 与3一样

3 给出每句中每个单词与前一个单词之间的困惑度


平滑参数:

-interpolate kndiscount

-cdiscount D Ney的绝对折扣 D位折扣参数 0<D<1


使用SRILM训练大的语言模型:点击打开链接 (即大文件切分 合并 训练)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值