统计语言模型(Statistical Language Model)-学习笔记

 

统计语言模型是自然语言处理(Natural Language Processing,NLP)的基础模型,是从概率统计角度出发,解决自然语言上下文相关的特性的数学模型。统计语言模型的核心就是判断一个句子在文本中出现的概率

模型

假定S表示某个有意义的句子,由一连串特定顺序排列的词\omega_{1}, \omega _{2}, \ldots, \omega_{n}组成,这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,即S的概率P(S),则P(S)=P(\omega_{1}, \omega _{2}, \ldots, \omega_{n})

利用条件概率的公式:

 P(\omega_{1}, \omega _{2}, \ldots, \omega_{n})=P(\omega_{1})\cdot P(\omega_{1}|\omega_{2})\cdot P(\omega_{3}|\omega_{1},\omega_{2}) \ldots P(\omega_{n}|\omega_{1},\omega_{2} \ldots, \omega_{n-1})

一般情况下:P(\omega_{1}|<s>)为更严谨的表示,表示\omega_{1}在句子s开头出现的概率,因为句子是有顺序的,因此利用的是条件概率,\omega_{1}出现的情况下,\omega _{2}出现的概率,\omega _{n}的概率计算依靠前面n-1个词。

当计算P(\omega_{1}),仅存在一个参数;P(\omega_{1}|\omega_{2}),存在两个参数,计算P(\omega_{3}|\omega_{1},\omega_{2})存在三个参数,但是以此类推P(\omega_{n}|\omega_{1},\omega_{2} \ldots, \omega_{n-1})存在n个参数,难易计算,因此在此基础上马尔可夫提出了,一种马尔可夫假设:假设\omega_{i}出现的概率只前面N-1个词相关\omega_{i-N+1},...,\omega_{i-2},\omega_{i-1},当N=2时,就是简单的二元模型(Bigram Model),当N=N时,就是常说的N元模型(N-gram Model)。 

一般情况下

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Foneone

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值