《数学之美》读书笔记03-01/02

第三章统计语言模型

3.1 数学的方法描述语言规律

1.因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关的特性建立数学模型。这个是数学模型就是在自然语言处理中常说的统计语言模型。

 在第二章中吴军博士先通过对基于文法规则处理自然语言的弊处详细说明,随后引入了统计原理。
 第三章就对统计语言模型进行了详细的阐述。那么统计语言模型究竟是如何建立呢?

2.假定S表示某一有意义的句子,由一连串特定顺序排列的词
w 1 , w 2 , … w n 组成,这里 n 是句子的长度。 w_1,w_2,…w_n组成,这里n是句子的长度。 w1,w2,wn组成,这里n是句子的长度。
现在我们想知道S在文本中出现的可能性,也就是数学上所说的S的概率P(S).
P(S)展开表示:
P ( S ) = P ( w 1 , w 2 , … , w n ) P(S)=P(w_1,w_2,…,w_n) P(S)=P(w1,w2,wn
利用条件概率的公式,S这个序列出现的概率等于每一个词出现的条件概率相乘,于是可展开为:
P ( w 1 , w 2 , … , w n ) = P ( w 1 ) ∗ P ( w 2 ∣ w 1 ) ∗ P ( w 3 ∣ w 1 , w 2 ) ∗ … ∗ P ( w n ∣ w 1 , w 2 , … , w n − 1 ) P(w_1,w_2,…,w_n)=P(w_1)*P(w_2|w_1)*P(w_3|w_1,w_2)*…*P(w_n|w_1,w_2,…,w_{n-1}) P(w1,w2,wn=P(w1)P(w2w1)P(w3w1,w2)P(wnw1,w2,wn1)

 根据以上贾里尼克的的模型,相较于70年代前根据规则来分析变的更加的简洁明了并且合理。
 虽然已经是一个足够简洁的公式,但是还是有弊端的。
 这里面每个词出现的概率都取决于前面所有的词,一个两个的计算量还可以,但是词量多时,这个概率就因为可能性太多,无法进行估算。
 科学总是在不断发展的,所以马尔可夫假设以及二元模型就出现了。
 补充一下概率的基础知识:
 P(A|B)是指在B条件下A发生的概率。P(A|B)=P(AB)/P(B)

3.俄国数学家马尔可夫(对于出现2中,到n时出现的可能性太大,无法估算的情况)假设任意一个词 w i 出现的概率只同他前面的词 w i − 1 有关。 w_i出现的概率只同他前面的词w_{i-1}有关。 wi出现的概率只同他前面的词wi1有关。
这种假设在数学上称为马尔可夫假设,S出现的概率变为:
P ( S ) = P ( w 1 ) ∗ P ( w 2 ∣ w 1 ) ∗ P ( w 3 ∣ w 2 ) ∗ … ∗ P ( w n ∣ w n − 1 ) P(S)=P(w_1)*P(w_2|w_1)*P(w_3|w_2)*…*P(w_n|w_{n-1}) P(S=P(w1)P(w2w1)P(w3w2)P(wnwn1)
上述公式对应的统计模型是二元模型(Bigram Model)

后续文章中还提到了N元模型,我的理解是和贾里尼克原理类似,还需后续补充。

4. 在语料库 ( C o r p u s ) 中数一数 w i − 1 , w i 这对词在文本中前后相邻出现了多少次 # ( w i − 1 , w i ) , 以及 w i − 1 本身在同样的文本中出现了多少次 # ( w i − 1 ) . 然后用两个数分别处以语料库的大小 # , 即可得到这些词或者二元组的相对频度: f ( w i − 1 , w i ) = # ( w i , w i − 1 ) # f ( w i − 1 ) = # ( w i − 1 ) # 根据大数定理,只要统计量足够,相对频度就等于概率,即 P ( w i , w i − 1 ) ≈ # ( w i , w i − 1 ) # P ( w i − 1 ) ≈ # ( w i − 1 ) # 因此 , 上式可简化为: P ( w i ∣ w i − 1 ) ≈ # ( w i − 1 , w i ) # w i − 1 \footnotesize 4.在语料库(Corpus)中数一数 w_{i-1},w_i 这对词在文本中前后相邻出现了多少次\#(w_{i-1},w_i), 以及w_{i-1}本身在同样的文本中出现了多少次\#(w_{i-1}).\\然后用两个数分别处以语料库的大小\#,即可得到这些词或者二元组的相对频度:\\f(w_{i-1},w_i)=\frac{\#(w_i,w_{i-1})}{\#}\\f(w_{i-1})=\frac{\#(w_{i-1})}{\#}\\根据大数定理,只要统计量足够,相对频度就等于概率,即\\P(w_i,w_{i-1})\approx \frac{\#(w_i,w_{i-1})}{\#}\\P(w_{i-1})\approx \frac{\#(w_{i-1})}{\#}\\因此,上式可简化为: \\P(w_i|w_{i-1})\approx \frac{\#(w_{i-1},w_i)}{\#w_{i-1}} 4.在语料库(Corpus)中数一数wi1,wi这对词在文本中前后相邻出现了多少次#(wi1,wi),以及wi1本身在同样的文本中出现了多少次#(wi1).然后用两个数分别处以语料库的大小#,即可得到这些词或者二元组的相对频度:f(wi1,wi)=##(wi,wi1)f(wi1)=##(wi1)根据大数定理,只要统计量足够,相对频度就等于概率,即P(wi,wi1)##(wi,wi1)P(wi1)##(wi1)因此,上式可简化为:P(wiwi1)#wi1#(wi1,wi)

这一式子的简化和第二条补充的条件概率概率公式以及大数定理相关,很神奇,数学公式用一种很简洁的方式就将复杂的事情展现出来了。
 这一篇读书笔记撰写的过程除了分享了一些读书笔记,顺便还琢磨了一下LaTeX数学公式的撰写方法,感觉收获颇多~
 1/3日继续更新第三章~~
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值