基于srilm的语言模型训练简介(一)

一、语言模型训练

##功能
#读取分词后的text文件或者count文件,然后用来输出最后汇总的count文件或者语言模型
##参数
#输入文本:
#  -read 读取count文件
#  -text 读取分词后的文本文件
#词典文件:
#  -vocab 限制text和count文件的单词,没有出现在词典的单词替换为<unk>;如果没有,所有的单词将会被自动加入词典
#  -limit-vocab 只限制count文件的单词(对text文件无效),没有出现在词典里面的count将会被丢弃
#  -write-vocab 输出词典
#平滑算法
#-interpolate   差值平滑算法
#-kndiscount  折扣平滑算法
#语言模型:
#  -lm 输出语言模型
#  -write-binary-lm 输出二进制的语言模型
#  -sort 输出语言模型gram排序

#训练模式一: text->count->lm
ngram-count -text $text -vocab ${vocab} -order 4 -sort -tolower -lm ${arpa} -interpolate -kndiscount

#训练模式二: text->count count->lm
ngram-count -text ${text} -order 4 -sort -tolower -write ${count} 
ngram-count -read ${count}  -order 4 -wbdiscount -interpolate -debug 2 -lm ${arpa}

二、语言模型打分

##功能
#用于评估语言模型的好坏,或者是计算特定句子的得分,用于语音识别的识别结果分析。
##参数
#计算得分:
#  -order 模型阶数&
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值