SRILM使用之用平滑Katz回退训练语言模型

原创 2016年08月28日 22:54:54

问题:考虑用下面的测试文件,测试上面的模型

cat test_coupus2.txt 

birds chirp

ngram -lm corpus.lm -ppl test_coupus2.txt  -debug 2

这里写图片描述

使用catzs回退方法,进行模型训练
要旨:对于次数较少的N-gram组,将其概率减少,减少的概率分配给训练集中没出现的N-gram组。

ngram-count -text corpus.txt -order 2 -write corpus_katz.count -lm corpus_katz.lm

概率计算公式为
这里写图片描述

条件概率计算过程 详细见excel

这里写图片描述

这里写图片描述

这里写图片描述

重新计算困惑度

ngram -lm corpus_katz.lm -ppl test_coupus2.txt  -debug 2

这里写图片描述

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

语言模型Katz backoff以及HMM模型

之前关于信息抽取那篇文章提到使用HMM对文章段落进行分段并标注,其中会使用到trigram-HMM并对传统的HMM进行改造以符合特定情况下使用。这里分别对Katz backoff以及HMM模型在具体状...

统计自然语言处理基础学习笔记(3)——统计推理

统计自然语言处理的目的就是针对自然语言领域进行统计推理。统计推理就是在统计概率的基础上进行预测,包括:1、数据处理,从而获得未知的概率分布;2、根据这些数据概率分布得到一些推论,并用于将来的预测。为了...
  • dqjyong
  • dqjyong
  • 2012年12月13日 18:18
  • 2068

语言模型srilm(三) 折扣平滑算法

一、概况在训练语言模型的时候有几个常用词:折扣(discounting)、平滑(smoothing)、插值(interpolate),下面用一个例子简单介绍一下。 我们的训练语料里面有“a、b、c、...
  • xmdxcsj
  • xmdxcsj
  • 2015年12月21日 18:06
  • 2811

C语言习题 链表建立,插入,删除,输出

#include #include using namespace std; struct student {int num,score; student *p; }; student *creat...

ARPA的n-gram语言模型格式

先看一下语言模型的格式 \data\ ngram 1=64000 ngram 2=522530 ngram 3=173445 \1-grams: -5.24036 'cause -...

Mac OSX下安装配置SRILM语言模型训练工具

OS 下安装配置SRILM语言模型工具的步骤详解
  • codia1
  • codia1
  • 2017年03月14日 16:09
  • 996

语言模型训练工具SRILM详解

SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。 关于SR...

语言模型训练工具SRILM详解

SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。 关于SR...

语言模型srilm(一) 基本用法

一、基本训练基本参数##功能 #读取分词后的text文件或者count文件,然后用来输出最后汇总的count文件或者语言模型 ##参数 #输入文本: # -read 读取count文件 # -te...
  • xmdxcsj
  • xmdxcsj
  • 2015年12月18日 18:30
  • 4340

srilm建立语言模型

reference:  http://blog.csdn.net/zhoubl668/article/details/8365716 测试数据可以从这个网站下载: http://www.sta...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:SRILM使用之用平滑Katz回退训练语言模型
举报原因:
原因补充:

(最多只允许输入30个字)