统计自然语言处理-N元语法模型概念简述_n元语言编写平滑函数,计算句子的概率-CSDN博客

本文链接：https://blog.csdn.net/hei653779919/article/details/84437154

统计自然语言处理—N元语法模型简述

一、N元语法的引出

一、N元语法的引出

问题1：在一段文本中，如何计算某个句子出现的概率？

A: 一个句子，是由多个基元所构成，其中基元包括字、词、短语等等。
B：对于句子中的一个基元，我们使用w_i来表示，句子用s来表示，并且假设句子的长度为l，则求句子的概率公式为P（s）=P（w₁w₂……w_l）,该概率公式的变形为P(s)=P(w₁)P(w₂|w₁)……P(w_l|w₁w₂……w_l-1)
C:根据B中公式的变形我们可以看出，当我们在求s出现的概率的时候，可以将其转换成条件概率的乘积，即求得在某些”历史”之下，某个基元出现的概率，再将各个基元出现的概率做乘法求得句子的概率。

问题2：对于某个规模大小为L的词表而言，某个词w_i的历史可能出现的情况有L^i-1大小，如何缩小计算规模？

A：我们采用近似计算的方式，对于某个w_i而言，根据其“历史”计算其概率为P（w_i|w₁w₂……w_i-1）,为了减少其计算的复杂度，我们直接计算P(w_i|w_i-n+1w_i-n+2……w_i-1)作为其估计的计算结果。
B：根据A我们可以计算出，整个句子的近似估计值为:P(s)= $\displaystyle\prod_{i=1}^{l} P(w_i|w_{i-n+1}w_{w-n+2}……w_{i})$
C:对于B中的公式，为了让w1成立和 $\displaystyle\sum P（s）=1$ ，我们在给个句子的句首和句尾添加、
<BOS>和<EOS>.
D:对于上述的计算模型，我们称其为N元语法计算模型，其成功的降低了概率的计算规模，当n=2的时候，我们称其为2元语法模型或者是一阶马尔科夫链，n=3的时候称其为二阶的马尔科夫链。

问题3：能否举一个例子来计算？

例：某一个训练预料库由以下三个句子所构成，“BROWN READ HOLY BIBLE”，“MARK READ A TEXT BOOK”,“HE READ A BOOK BY DAVID”，以二元文法为例，我们来计算第一个句子的概率。
P(<BOS>BROWN READ A BOOK<EOS>) =P(BROWN|<BOS>)*P(READ|BROWN)*P(A|READ)*P(BOOK|A)*P(<EOS>|BOOK)
其中 P(BROWN|<BOS>) = $\frac{c(<BOS>\quad BROWN)}{\displaystyle\sum_{w}c(<BOS>w) }$ =1/3
P(READ|BROWN) = $\frac{c(BROWN \quad READ)}{\displaystyle\sum_{w}c(BROWNw) }$ =1/1
P(A}READ) = $\frac{c(READ\quad A)}{\displaystyle\sum_{w}c(READ \quad w) }$ =2/3
P(BOOK\A) = $\frac{c(A \quad BOOK)}{\displaystyle\sum_{w}c(A \quad w) }$ =1/2
P(|BOOK) = $\frac{c(BOOK \quad <EOS>)}{\displaystyle\sum_{w}c(BOOK \quad w) }$ =1/2
则整个句子出现的概率为 P(s) = 1/3 * 1 * 2/3 * 1/2 * 1/2 ≈ 0.06