统计机器翻译笔记 chapter3 概率论
博客:https://www.tzer.top/
数据样本集合的特性
均值
对于一个数据样本集合 x 1 , x 2 , . . . , x n {x_1,x_2,...,x_n} x1,x2,...,xn均值为 x ‾ \overline x x
x ‾ = 1 n ∑ i n x i \overline x=\frac{1}{n}\sum_i^nx_i x=n1i∑nxi
方差
样本个体偏离平均值的程度。方差计算的是每个样本与均值之差的平方的算数平均值。
σ 2 = 1 n ∑ i n ( x i − x ‾ ) 2 \sigma^2=\frac{1}{n}\sum_{i}^{n}{(x_i - \overline x)^2} σ2=n1i∑n(xi−x)2
概率分布的特性
期望
概率分布的均值称为期望,随机变量 X X X的期望定义如下:
E [ X ] = ∑ x ∈ X x p ( x ) E[X]=\sum_{x\in X}xp(x) E[X]=x∈X∑xp(x)
对于随机变量每个可能的取值 x i x_i xi,与其对应概率加权求和。
方差
V a r [ X ] = ∑ x ∈ X ( x − E [ X ] ) 2 p ( x ) Var[X]=\sum_{x\in X}(x-E[X])^2p(x) Var[X]=x∈X∑(x−E[X])2p(x)
相当于随机变量的每个取值与期望的差 的平方的期望,可以写为
V a r [ X ] = E [ ( x − E [ X ] ) 2 ] Var[X]=E[(x-E[X])^2] Var[X]=E[(x−E[X])2]
如果从样本数据中估计概率分布,需要样本的均值与概率分布的期望相同。如果已知一个概率分布,就可以得出样本数据的均值和方差。
熵
一个随机变量X的熵为:
H ( X ) = − ∑ x ∈ X p ( x ) l o g 2 p ( x ) H(X)=-\sum_{x\in X}p(x)log_2p(x) H(X)=−x∈X∑p(x)log2p(x)
概率越大,事件发生的不确定性越小,熵越小。模型中我们通常获取更多的信息来增加确定性(减小熵)。现实系统中,通过消耗能量来增加确定性。
p ( x ) = 1 , H ( x ) = 0 p(x)=1,H(x)=0 p(x)=1,H(x)=0
某一个事件有2结果,概率为1/2那么 H ( x ) = − ( 1 2 l o g 2 1 / 2 + 1 2 l o g 2 1 / 2 ) = 1 H(x)=-(\frac{1}{2}log_21/2 + \frac{1}{2}log_21/2)=1 H(x)=−(21log21/2+21log21/2)=1
联合熵
同时考虑两个随机变量x,y
H ( X , Y ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) l o g 2 p ( x , y ) H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y) H(X,Y)=−x∈X,y∈Y∑p(x,y)log2p(x,y)
条件熵
简单理解,条件熵是在一个随机变量已知的情况下,另一个随机变量减少的程度。是一个非对称的度量
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)-H(X) H(Y∣X)=H(X,Y)−H(X)
但是不一定 H ( Y ∣ X ) = H ( X ∣ Y ) H(Y|X)=H(X|Y) H(Y∣X)=H(X∣Y)
互信息
是一个对称的度量,
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)−H(X∣Y)
I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = ∑ x ∈ X , y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) I(X;Y)=H(X)+H(Y)-H(X,Y)=\sum_{x\in X,y \in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} I(X;Y)=H(X)+H(Y)−H(X,Y)=x∈X,y∈Y∑p(x,y)logp(x)p(y)p(x,y)
如果两个随机变量是独立的,p(x,y)=p(x)p(y)那么I(X,Y)=0。如果p(y|x)=1,那么根据贝叶斯可得p(x,y)=p(x),I(X;Y)=H(Y),X,Y的互信息包含了Y的所有不确定性
例子
X\Y | 明天下雨 | 明天不下雨 |
---|---|---|
今天下雨 | 0.12 | 0.08 |
今天不下雨 | 0.08 | 0.72 |
对于两个随机变量X,Y,分别有两个取值。
X:p(今天下雨)=0.2 p(今天不下雨)=0.8
Y:p(明天下雨)=0.2 p(明天不下雨)=0.8
并且还可以获得每个取值的联合概率,如p(今天下雨,明天下雨)=0.12
H ( X ) = H ( Y ) = − ∑ x ∈ X p ( x ) l o g 2 p ( x ) = − ( 0.2 l o g 2 0.2 + 0.8 l o g 2 0.8 ) = 0.722 H(X)=H(Y)=-\sum_{x\in X}p(x)log_2p(x)=-(0.2log_20.2 + 0.8log_20.8)=0.722 H(X)=H(Y)=−∑x∈Xp(x)log2p(x)=−(0.2log20.2+0.8log20.8)=0.722
H ( X , Y ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) l o g 2 p ( x , y ) = − ( 0.12 l o g 2 0.12 + 0.08 l o g 2 0.08 + 0.08 l o g 2 0.08 + 0.72 l o g 2 0.72 ) = 1.291 H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y)=-(0.12log_20.12+0.08log_20.08+0.08log_20.08+0.72log_20.72)=1.291 H(X,Y)=−∑x∈X,y∈Yp(x,y)log2p(x,y)=−(0.12log20.12+0.08log20.08+0.08log20.08+0.72log20.72)=1.291
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) = 0.569 H(Y|X)=H(X,Y)-H(X)=0.569 H(Y∣X)=H(X,Y)−H(X)=0.569
I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = 0.722 + 0.722 − 1.291 = 0.153 I(X;Y)=H(X)+H(Y)-H(X,Y)=0.722+0.722-1.291=0.153 I(X;Y)=H(X)+H(Y)−H(X,Y)=0.722+0.722−1.291=0.153
任意一天下雨的熵为0.722,如果前后两天的天气相互独立, I ( X ; Y ) = 0 , H ( X , Y ) = H ( X ) + H ( Y ) I(X;Y)=0,H(X,Y)=H(X)+H(Y) I(X;Y)=0,H(X,Y)=H(X)+H(Y),那么联合熵是0.722*2=1.444,但真实情况为1.291,表明他们之间的互信息的0.153。今天的天气使得明天天气的熵从0.722降低到了0.569.