基于srilm的语言模型训练简介（一）

最新推荐文章于 2023-03-07 15:47:34 发布

执刀人

最新推荐文章于 2023-03-07 15:47:34 发布

阅读量1.1k

点赞数

分类专栏：语音识别机器学习文章标签： srilm 语言模型

本文链接：https://blog.csdn.net/u012528143/article/details/100990017

版权

文章目录

一、语言模型训练
二、语言模型打分
三、语言模型剪枝
四、语言模型合并
五、语言模型使用词典限制

一、语言模型训练

##功能
#读取分词后的text文件或者count文件，然后用来输出最后汇总的count文件或者语言模型
##参数
#输入文本：
#  -read 读取count文件
#  -text 读取分词后的文本文件
#词典文件：
#  -vocab 限制text和count文件的单词，没有出现在词典的单词替换为<unk>；如果没有，所有的单词将会被自动加入词典
#  -limit-vocab 只限制count文件的单词（对text文件无效），没有出现在词典里面的count将会被丢弃
#  -write-vocab 输出词典
#平滑算法
#-interpolate   差值平滑算法
#-kndiscount  折扣平滑算法
#语言模型：
#  -lm 输出语言模型
#  -write-binary-lm 输出二进制的语言模型
#  -sort 输出语言模型gram排序

#训练模式一: text->count->lm
ngram-count -text $text -vocab ${vocab} -order 4 -sort -tolower -lm ${arpa} -interpolate -kndiscount

#训练模式二: text->count count->lm
ngram-count -text ${text} -order 4 -sort -tolower -write ${count} 
ngram-count -read ${count}  -order 4 -wbdiscount -interpolate -debug 2 -lm ${arpa}

二、语言模型打分

##功能
#用于评估语言模型的好坏，或者是计算特定句子的得分，用于语音识别的识别结果分析。
##参数
#计算得分：
#  -order 模型阶数&

最低0.47元/天解锁文章

执刀人

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
基于srilm的语言模型训练简介（一）

文章目录一、语言模型训练二、语言模型打分三、语言模型剪枝四、语言模型合并五、语言模型使用词典限制一、语言模型训练##功能#读取分词后的text文件或者count文件，然后用来输出最后汇总的count文件或者语言模型##参数#输入文本：# -read 读取count文件# -text 读取分词后的文本文件#词典文件：# -vocab 限制text和count文件的单词，没有出...
复制链接

扫一扫

专栏目录