对语言模型(Language Model)与n-gram的理解

本文介绍了语言模型的重要性和定义,重点讲解了n-gram模型,包括链式法则、马尔可夫假设、拉普拉斯平滑以及如何选择n值。通过n-gram解决了长句子概率计算的复杂性,并探讨了语言模型的评价标准——困惑度。
摘要由CSDN通过智能技术生成

目录

1 语言模型(Language  Model)的定义

2 N-gram

2.1 链式法则(chain rule)

2.2 马尔可夫假设和n-gram

2.3 拉普拉斯平滑(Laplace Smoothing)

2.4 语言模型的评价标准(n如何选取?)


1 语言模型(Language  Model)的定义

  • 定义:语言模型是一个单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。
  • 数学角度理解:语言模型就是对于一个语素序列 w_1,w_2,w_3,...w_n,计算出这个语素序列的概率,即: p(w_1,w_2,w_3,...w_n)(语素指语言中最小的音义结合体,一般来说就是独立的词)

简单来说就是通过一些数学手段,计算出对于一个句子的概率大小,概率大这句话就是正确的,概率小这句话就是错误的。例如:p(I, Love, NLP)>p(Love, NLP, I),这里是存在语序的。

语言模型主要有三种类型:1. 生成性模型,2. 分析性模型,3. 辨识性模型。这里我的理解就是NLG和NLU,NLG就是根据意思生成文本或语音,NLU就是根据语音或文本理解它的意思,第三个是前两者的结合体从而实现更强大的功能。

2 N-gram

2.1 链式法则(chain rule)

首先需要知道链式法则:

p(a,b,c) =p(a)*p(b|a)*p(c|a,b)

把上面提到的语言模型p(w_1,w_2,w_3,...w_n)带入可以得到:

p(w_1,w_2,w_3,...w_n) =p(w_1)*p(w_2|w_1)*p(w_3|w_1,w_2)*...*p(w_n|w_1,w_2,w_3,...,w_{n-1})

其中 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值