srilm建立语言模型

reference: 

http://blog.csdn.net/zhoubl668/article/details/8365716

测试数据可以从这个网站下载: http://www.statmt.org/europarl/  ,  我测试下载的是 parallel corpus Bulgarian-English


1.生成n-gram计数文件

./ngram-count -text ./test/europarl-v7.bg-en.en -order 3 -write ./test/europarl-v7.bg-en.en.counts

note: -text 表示输入的文件,就是我们的所有语音对应的文本文件,最好是提前做一个数据清理(把标点符号去掉,全都转化为大写或者小写)

-order 表示生成的是n-gram模型,词的长度最大是3

-write 写入一个计数文件

下面是生成的counts文件中的几行:

Uncooperative   1  #表示该词在文件中出现了一次
Uncooperative countries 1   <span style="font-family: Menlo;">#表示该词在文件中出现了一次</span>
Uncooperative countries of      1
propagate       6   ࿰
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值