一、语言模型训练
##功能
#读取分词后的text文件或者count文件,然后用来输出最后汇总的count文件或者语言模型
##参数
#输入文本:
# -read 读取count文件
# -text 读取分词后的文本文件
#词典文件:
# -vocab 限制text和count文件的单词,没有出现在词典的单词替换为<unk>;如果没有,所有的单词将会被自动加入词典
# -limit-vocab 只限制count文件的单词(对text文件无效),没有出现在词典里面的count将会被丢弃
# -write-vocab 输出词典
#平滑算法
#-interpolate 差值平滑算法
#-kndiscount 折扣平滑算法
#语言模型:
# -lm 输出语言模型
# -write-binary-lm 输出二进制的语言模型
# -sort 输出语言模型gram排序
#训练模式一: text->count->lm
ngram-count -text $text -vocab ${vocab} -order 4 -sort -tolower -lm ${arpa} -interpolate -kndiscount
#训练模式二: text->count count->lm
ngram-count -text ${text} -order 4 -sort -tolower -write ${count}
ngram-count -read ${count} -order 4 -wbdiscount -interpolate -debug 2 -lm ${arpa}
二、语言模型打分
##功能
#用于评估语言模型的好坏,或者是计算特定句子的得分,用于语音识别的识别结果分析。
##参数
#计算得分:
# -order 模型阶数&