概率论
最大似然估计
如果 s1,s2,...,sn s 1 , s 2 , . . . , s n 是一个试验的样本空间,在相同情况下重复N次试验,观察到样本 sk s k 的次数为 nN(sk) n N ( s k ) ,那么 sk s k 在这N次试验中相对频率为 qN(sk)=nN(sk)N q N ( s k ) = n N ( s k ) N 。当N越来越大时,满足 limN→∞qN(sk)=P(sk) lim N → ∞ q N ( s k ) = P ( s k )
条件概率
P(A|B)=P(A∩B)P(B) P ( A | B ) = P ( A ∩ B ) P ( B )
贝叶斯法则
P(Bi|A)=P(A|Bi)P(Bi)∑j=1nP(A|Bj)P(Bj) P ( B i | A ) = P ( A | B i ) P ( B i ) ∑ j = 1 n P ( A | B j ) P ( B j )
argmaxBP(A|B)P(B)P(A)=argmaxBP(A|B)P(B) arg max B P ( A | B ) P ( B ) P ( A ) = arg max B P ( A | B ) P ( B )
二项式分布
pi=CIn⋅pI(1−p)n−i p i = C n I ⋅ p I ( 1 − p ) n − i
联合概率分布和条件概率分布
P(X1=ai|X2=bj)=P(X1=ai,X2=bj)P(X2=bj) P ( X 1 = a i | X 2 = b j ) = P ( X 1 = a i , X 2 = b j ) P ( X 2 = b j )
信息论
熵
熵又称为自信息,描述一个随机变量的不确定性的数量。
H(X)=−∑x∈Rp(x)logp(x)
H
(
X
)
=
−
∑
x
∈
R
p
(
x
)
log
p
(
x
)
联合熵和条件熵
如果X,Y时一对离散型随机变量。X,Y的联合熵H(X,Y)的定义为
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
H(Y|X)=−∑x∈X∑y∈Yp(x,y)logp(y|x)
H
(
Y
|
X
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
y
|
x
)
H(X,Y)=H(X)+H(Y|X)
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
|
X
)
推广到一般情况
H(X1,X2,⋯.Xn)=H(X1)+H(X2|X1)+⋯+H(Xn|X1,⋯,Xn−1)
H
(
X
1
,
X
2
,
⋯
.
X
n
)
=
H
(
X
1
)
+
H
(
X
2
|
X
1
)
+
⋯
+
H
(
X
n
|
X
1
,
⋯
,
X
n
−
1
)
互信息
X和Y的互信息,记作I(X;Y)。
I(X;Y)=H(X)−H(X|Y)
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
|
Y
)
。反映知道了Y的值以后X的不确定性的减少量,换一句话说,理解Y的值透露了多少关于X的信息量。
I(X;Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)
I
(
X
;
Y
)
=
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
相对熵
相对熵也称KL距离,描述相同事件空间里两个概念分布相对差距的测度。
D(p||q)=∑x∈Xp(x)logp(x)q(x)
D
(
p
|
|
q
)
=
∑
x
∈
X
p
(
x
)
log
p
(
x
)
q
(
x
)
D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))
D
(
p
(
x
,
y
)
|
|
q
(
x
,
y
)
)
=
D
(
p
(
x
)
|
|
q
(
x
)
)
+
D
(
p
(
y
|
x
)
|
|
q
(
y
|
x
)
)
D(p(y|x)||q(y|x))=∑xp(x)∑yp(y|x)logp(y|x)q(y|x)
D
(
p
(
y
|
x
)
|
|
q
(
y
|
x
)
)
=
∑
x
p
(
x
)
∑
y
p
(
y
|
x
)
log
p
(
y
|
x
)
q
(
y
|
x
)
交叉熵
交叉熵时用来衡量估计模型与真实概率分布之间差异情况的。
H(X,q)=H(X)+D(p||q)=−∑xp(x)logq(x)
H
(
X
,
q
)
=
H
(
X
)
+
D
(
p
|
|
q
)
=
−
∑
x
p
(
x
)
log
q
(
x
)
一般地,N足够大时,近似采用以下计算
H(L,q)=−1Nlogq(xN1)
H
(
L
,
q
)
=
−
1
N
log
q
(
x
1
N
)
。其中的q(x)是模型q对x概率的估计值。
困惑度
语言模型设计的任务就是要寻找困惑度最小的模型,使其最接近真实语言的情况。
PPq=2H(L,q)=[q(ln1)]−1n
P
P
q
=
2
H
(
L
,
q
)
=
[
q
(
l
1
n
)
]
−
1
n
Reference
《统计自然语言处理(第二版)》