预备数学知识 自然语言处理

概率论
最大似然估计

如果 s1,s2,...,sn s 1 , s 2 , . . . , s n 是一个试验的样本空间,在相同情况下重复N次试验,观察到样本 sk s k 的次数为 nN(sk) n N ( s k ) ,那么 sk s k 在这N次试验中相对频率为 qN(sk)=nN(sk)N q N ( s k ) = n N ( s k ) N 。当N越来越大时,满足 limNqN(sk)=P(sk) lim N → ∞ q N ( s k ) = P ( s k )

条件概率
P(A|B)=P(AB)P(B) P ( A | B ) = P ( A ∩ B ) P ( B )
贝叶斯法则
P(Bi|A)=P(A|Bi)P(Bi)j=1nP(A|Bj)P(Bj) P ( B i | A ) = P ( A | B i ) P ( B i ) ∑ j = 1 n P ( A | B j ) P ( B j )
argmaxBP(A|B)P(B)P(A)=argmaxBP(A|B)P(B) arg ⁡ max B ⁡ P ( A | B ) P ( B ) P ( A ) = arg ⁡ max B ⁡ P ( A | B ) P ( B )
二项式分布

pi=CInpI(1p)ni p i = C n I ⋅ p I ( 1 − p ) n − i

联合概率分布和条件概率分布
P(X1=ai|X2=bj)=P(X1=ai,X2=bj)P(X2=bj) P ( X 1 = a i | X 2 = b j ) = P ( X 1 = a i , X 2 = b j ) P ( X 2 = b j )
信息论

熵又称为自信息,描述一个随机变量的不确定性的数量。
H(X)=xRp(x)logp(x) H ( X ) = − ∑ x ∈ R p ( x ) log ⁡ p ( x )

联合熵和条件熵

如果X,Y时一对离散型随机变量。X,Y的联合熵H(X,Y)的定义为
H(X,Y)=xXyYp(x,y)logp(x,y) H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y )
H(Y|X)=xXyYp(x,y)logp(y|x) H ( Y | X ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( y | x )
H(X,Y)=H(X)+H(Y|X) H ( X , Y ) = H ( X ) + H ( Y | X )
推广到一般情况
H(X1,X2,.Xn)=H(X1)+H(X2|X1)++H(Xn|X1,,Xn1) H ( X 1 , X 2 , ⋯ . X n ) = H ( X 1 ) + H ( X 2 | X 1 ) + ⋯ + H ( X n | X 1 , ⋯ , X n − 1 )

互信息

X和Y的互信息,记作I(X;Y)。 I(X;Y)=H(X)H(X|Y) I ( X ; Y ) = H ( X ) − H ( X | Y ) 。反映知道了Y的值以后X的不确定性的减少量,换一句话说,理解Y的值透露了多少关于X的信息量。
I(X;Y)=x,yp(x,y)logp(x,y)p(x)p(y) I ( X ; Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y )

相对熵

相对熵也称KL距离,描述相同事件空间里两个概念分布相对差距的测度。
D(p||q)=xXp(x)logp(x)q(x) D ( p | | q ) = ∑ x ∈ X p ( x ) log ⁡ p ( x ) q ( x )
D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x)) D ( p ( x , y ) | | q ( x , y ) ) = D ( p ( x ) | | q ( x ) ) + D ( p ( y | x ) | | q ( y | x ) )
D(p(y|x)||q(y|x))=xp(x)yp(y|x)logp(y|x)q(y|x) D ( p ( y | x ) | | q ( y | x ) ) = ∑ x p ( x ) ∑ y p ( y | x ) log ⁡ p ( y | x ) q ( y | x )

交叉熵

交叉熵时用来衡量估计模型与真实概率分布之间差异情况的。
H(X,q)=H(X)+D(p||q)=xp(x)logq(x) H ( X , q ) = H ( X ) + D ( p | | q ) = − ∑ x p ( x ) log ⁡ q ( x )
一般地,N足够大时,近似采用以下计算
H(L,q)=1Nlogq(xN1) H ( L , q ) = − 1 N log ⁡ q ( x 1 N ) 。其中的q(x)是模型q对x概率的估计值。

困惑度

语言模型设计的任务就是要寻找困惑度最小的模型,使其最接近真实语言的情况。
PPq=2H(L,q)=[q(ln1)]1n P P q = 2 H ( L , q ) = [ q ( l 1 n ) ] − 1 n

Reference
《统计自然语言处理(第二版)》

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值