SRILM使用之用平滑Katz回退训练语言模型

原创 2016年08月28日 22:54:54

问题:考虑用下面的测试文件,测试上面的模型

cat test_coupus2.txt 

birds chirp

ngram -lm corpus.lm -ppl test_coupus2.txt  -debug 2

这里写图片描述

使用catzs回退方法,进行模型训练
要旨:对于次数较少的N-gram组,将其概率减少,减少的概率分配给训练集中没出现的N-gram组。

ngram-count -text corpus.txt -order 2 -write corpus_katz.count -lm corpus_katz.lm

概率计算公式为
这里写图片描述

条件概率计算过程 详细见excel

这里写图片描述

这里写图片描述

这里写图片描述

重新计算困惑度

ngram -lm corpus_katz.lm -ppl test_coupus2.txt  -debug 2

这里写图片描述

版权声明:本文为博主原创文章,未经博主允许不得转载。

自然语言处理:盘点一下数据平滑算法

在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。我们知道,算法在训练时,语料库不可能包含所有可能出现的序列。因此,为了防止对训练样本中未出现的新序列概率估计值为零,人们发明了好多改善估计新...
  • quicmous
  • quicmous
  • 2016年08月13日 11:02
  • 3631

自然语言处理基础(4)--数据平滑技术

所谓“数据平滑技术”,是指为了产生更准确的概率来调整最大似然估计的技术,基本思想就是提高低概率(如零概率),降低低概率,尽量使概率分布趋于平均。...
  • sihailongwang
  • sihailongwang
  • 2017年06月21日 09:05
  • 665

SRILM使用之训练无平滑语言模型

【语料准备】 训练语料wget http://idiom.ucsd.edu/~rlevy/teaching/2015winter/lign165/lectures/lecture13/toy-exa...
  • baiziyuandyufei
  • baiziyuandyufei
  • 2016年08月28日 22:39
  • 558

语言模型srilm(三) 折扣平滑算法

一、概况在训练语言模型的时候有几个常用词:折扣(discounting)、平滑(smoothing)、插值(interpolate),下面用一个例子简单介绍一下。 我们的训练语料里面有“a、b、c、...
  • xmdxcsj
  • xmdxcsj
  • 2015年12月21日 18:06
  • 3307

SRILM的使用方法

1、从语料库中生成n-gram计数文件: ngram-count -text train.txt -order 3 -write train.txt.count -text指向输入文件 -ord...
  • u011500062
  • u011500062
  • 2016年03月02日 16:20
  • 1863

语言模型Katz backoff以及HMM模型

之前关于信息抽取那篇文章提到使用HMM对文章段落进行分段并标注,其中会使用到trigram-HMM并对传统的HMM进行改造以符合特定情况下使用。这里分别对Katz backoff以及HMM模型在具体状...
  • nihaomafb
  • nihaomafb
  • 2015年08月26日 20:31
  • 1571

Spring BackOff退避算法(一)

1、按照固定时间间隔重试,比如100毫秒;这种方式在网络不稳定时重连可能造成某一时间点流量同时发送,阻塞网络;或者造成发送一些无意义的请求; 2、按照指数时间间隔重试,比如刚开始100毫秒,下一...
  • liuxianbing119
  • liuxianbing119
  • 2016年02月26日 10:46
  • 2166

MIT自然语言处理第三讲:概率语言模型(第四、五、六部分)

MIT自然语言处理第三讲:概率语言模型(第四部分) 自然语言处理:概率语言模型 Natural Language Processing: Probabilistic Languag...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年03月10日 12:59
  • 871

语言模型

斯坦福大学自然语言处理第四课“语言模型(Language Modeling)” 一、课程介绍 斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jur...
  • xiaokang06
  • xiaokang06
  • 2014年01月07日 19:07
  • 25046

概率语言模型 Probabilistic Language Modeling (二) --- 模型估计算法介绍

1. 缘由–数据稀疏问题假设kk泛指某一事件,N(k)N(k)表示事件kk观察到的频数,极大似然法使用相对频数作为对事件kk的概率估计为p(k)=N(k)Np(k)=\frac{N(k)}{N},在语...
  • wwjiang_ustc
  • wwjiang_ustc
  • 2016年02月28日 23:05
  • 1510
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:SRILM使用之用平滑Katz回退训练语言模型
举报原因:
原因补充:

(最多只允许输入30个字)