语言模型训练工具SRILM

最新推荐文章于 2024-06-04 09:36:28 发布

好蓝好蓝啊

最新推荐文章于 2024-06-04 09:36:28 发布

阅读量469

点赞数

本文链接：https://blog.csdn.net/bgfuufb/article/details/84065112

版权

本文详细介绍了SRILM，一个用于语音识别、统计标注和机器翻译的统计语言模型工具。通过实例展示了如何使用SRILM进行n-gram模型的训练和测试，包括ngram-count和ngram命令的使用，以及困惑度的计算。同时，推荐了相关学习资源。

摘要由CSDN通过智能技术生成

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

　 SRILM是著名的约翰霍普金斯夏季研讨会（Johns Hopkins Summer Workshop）的产物，诞生于1995年，由SRI实验室的Andreas Stolcke负责开发维护。

　　关于SRILM的安装，我已经在前面关于moses平台搭建的文章（参见：《Moses相关介绍》和《Ubuntu8-10下moses测试平台搭建全记录》）中介绍过了，这里就不再重复。准确的说，SRILM并不是因机器翻译而诞生的，它主要是为语音识别所开发的，全称为Stanford Research Institute Language Modeling Toolkit。事实上统计机器翻译与语音识别关系千丝万缕，我会在以后的文章中介绍。

　　SRILM用来构建和应用统计语言模型，主要用于语音识别，统计标注和切分，以及机器翻译，可运行在UNIX及Windows平台上。它主要包含以下几个部分：

　　• 一组实现的语言模型、支持这些模型的数据结构和各种有用的函数的C++类库；

　　• 一组建立在这些类库基础上的用于执行标准任务的可执行程序，如训练语言模型，在数据集上对这些语言模型进行测试，对文本进行标注或切分等任务。

　　• 一组使相关任务变得容易的各种脚本。

　　SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据（训练集）中得到一个模型，包括最大似然估计及相应的平滑算法；而评测则是从测试集中计算其困惑度（MIT自然语言处理概率语言模型有相关介绍）。其最基础和最核心的模块是n-gram模块，这也是最早实现的模块，包括两个工具：ngram-count和ngram，相应的被用来估计语言模型和计算语言模型的困惑度。一个标准的语言模型（三元语言模型(trigram),使用 Good-Truing打折法和katz回退进行平衡）可以用如下的命令构建：

　　　ngram-count -text TRAINDATA -lm LM

　　其中LM是输出的语言模型文件，可以用如下的命令进行评测：

　　　ngram -lm LM -ppl TESTDATA -debug 2

　　其中具体的参数可参看官方网站的帮助文档，如果你已经在linux下编译好了，可以直接使用man调用帮助文档。事实上,统计机器翻译框架主要用的就是 n-gram这个模块来训练语言模型。下面我们以欧洲语料库的英语语料为例，解析这个工具的作用。语料库下载地址见：欧洲议会平行语料库。本例子使用的是wmt08里面用于英语语言模型训练的europarl-v3b.en，用于机器翻译的预处理过程tokenize和lowercase此处省略，其规模为1412546句：

　　1、从语料库中生成n-gram计数文件：

　　　ngram-count -text europarl-v3b.en -order 3 -write