SRILM使用之训练无平滑语言模型

原创 2016年08月28日 22:39:09

【语料准备】
训练语料

wget http://idiom.ucsd.edu/~rlevy/teaching/2015winter/lign165/lectures/lecture13/toy-example/corpus.txt

测试语料

wget http://idiom.ucsd.edu/~rlevy/teaching/2015winter/lign165/lectures/lecture13/toy-example/test_corpus.txt

训练语料内容

$ cat corpus.txt

dogs chase cats
dogs bark
cats meow
dogs chase birds
cats chase birds
dogs chase the cats
the birds chirp

【计数文件生成】 此步在实际应用中不需要

ngram-count -text corpus.txt -order 2 -write1 corpus_1gram.count -write2 corpus_2gram.count

将计数文件分别输出到1-gram文件和2-gram文件

【模型文件生成】

ngram-count -text corpus.txt -debug 2 -order 2 -addsmooth 0 -lm corpus.lm

这里使用-addsmooth 0 参数,使模型不进行平滑处理
对模型文件的分析 此处省略了一些数据,详见excel
第1部分
这里写图片描述

第2部分
这里写图片描述

这里写图片描述
第3部分
这里写图片描述

这里写图片描述

【计算测试文件困惑度】

ngram -lm corpus.lm -ppl test_corpus.txt -debug 2

这里写图片描述

其中:每一行代表可以从lm文件中查到的条件概率,第1列概率表示,第2列说明是几元条件概率,第3列概率值,第4列为概率值取对数。
logprob为整个句子的概率,它是由所有行概率值相加得到的。
ppl为困惑度,它是由公式10^-logprob/(#sen+#words)计算得到的。
以第1句话为例:ppl=10^-(-1.44716)/(1+4)=1.94729。
ppl1为困惑度,它是由公式 10^-logprob/#words计算得到的。
以第1句话为例:ppl1=10^-(-1.44716)/4=2.30033。

版权声明:本文为博主原创文章,未经博主允许不得转载。

语言模型srilm(三) 折扣平滑算法

一、概况在训练语言模型的时候有几个常用词:折扣(discounting)、平滑(smoothing)、插值(interpolate),下面用一个例子简单介绍一下。 我们的训练语料里面有“a、b、c、...
  • xmdxcsj
  • xmdxcsj
  • 2015年12月21日 18:06
  • 3286

SRILM使用之用平滑Katz回退训练语言模型

问题:考虑用下面的测试文件,测试上面的模型cat test_coupus2.txt birds chirpngram -lm corpus.lm -ppl test_coupus2.txt -deb...
  • baiziyuandyufei
  • baiziyuandyufei
  • 2016年08月28日 22:54
  • 967

SRILM的使用方法

1、从语料库中生成n-gram计数文件: ngram-count -text train.txt -order 3 -write train.txt.count -text指向输入文件 -ord...
  • u011500062
  • u011500062
  • 2016年03月02日 16:20
  • 1860

语言模型训练工具:SRILM的使用

一、 假设
  • cdj0311
  • cdj0311
  • 2014年04月17日 16:16
  • 3021

语音识别语言模型工具srilm使用指南

  • 2014年06月27日 17:29
  • 3.49MB
  • 下载

语言模型训练工具SRILM详解

SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。 关于SR...
  • zhoubl668
  • zhoubl668
  • 2012年12月21日 22:40
  • 7801

语言模型srilm(一) 基本用法

一、基本训练基本参数##功能 #读取分词后的text文件或者count文件,然后用来输出最后汇总的count文件或者语言模型 ##参数 #输入文本: # -read 读取count文件 # -te...
  • xmdxcsj
  • xmdxcsj
  • 2015年12月18日 18:30
  • 5330

A Toolkit For Langugae Modeling——SRILM使用记录

参考: SRILM安装:http://blog.csdn.net/zhoubl668/article/details/7759370 SRILM使用:http://hi.baidu.com/key...
  • a635661820
  • a635661820
  • 2015年02月25日 19:52
  • 4207

语言模型的评估-困惑度

语言模型评价 语言模型构造完成后,如何确定好坏呢? 目前主要有两种评价方法: 实用方法:通过查看该模型在实际应用(如拼写检查、机器翻译)中的表现来评价,优点是直观、实用,缺点是缺乏针对性、...
  • lujiandong1
  • lujiandong1
  • 2016年11月21日 15:25
  • 5118

SRILM使用说明

SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。   ...
  • u011982340
  • u011982340
  • 2014年09月22日 12:45
  • 1589
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:SRILM使用之训练无平滑语言模型
举报原因:
原因补充:

(最多只允许输入30个字)