概率分布的一些特性

统计机器翻译笔记 chapter3 概率论
博客:https://www.tzer.top/

数据样本集合的特性

均值

对于一个数据样本集合 x 1 , x 2 , . . . , x n {x_1,x_2,...,x_n} x1,x2,...,xn均值为 x ‾ \overline x x

x ‾ = 1 n ∑ i n x i \overline x=\frac{1}{n}\sum_i^nx_i x=n1inxi

方差

样本个体偏离平均值的程度。方差计算的是每个样本与均值之差的平方的算数平均值。

σ 2 = 1 n ∑ i n ( x i − x ‾ ) 2 \sigma^2=\frac{1}{n}\sum_{i}^{n}{(x_i - \overline x)^2} σ2=n1in(xix)2

概率分布的特性

期望

概率分布的均值称为期望,随机变量 X X X的期望定义如下:

E [ X ] = ∑ x ∈ X x p ( x ) E[X]=\sum_{x\in X}xp(x) E[X]=xXxp(x)

对于随机变量每个可能的取值 x i x_i xi,与其对应概率加权求和。

方差

V a r [ X ] = ∑ x ∈ X ( x − E [ X ] ) 2 p ( x ) Var[X]=\sum_{x\in X}(x-E[X])^2p(x) Var[X]=xX(xE[X])2p(x)

相当于随机变量的每个取值与期望的差 的平方的期望,可以写为

V a r [ X ] = E [ ( x − E [ X ] ) 2 ] Var[X]=E[(x-E[X])^2] Var[X]=E[(xE[X])2]

如果从样本数据中估计概率分布,需要样本的均值与概率分布的期望相同。如果已知一个概率分布,就可以得出样本数据的均值和方差。

一个随机变量X的熵为:

H ( X ) = − ∑ x ∈ X p ( x ) l o g 2 p ( x ) H(X)=-\sum_{x\in X}p(x)log_2p(x) H(X)=xXp(x)log2p(x)

概率越大,事件发生的不确定性越小,熵越小。模型中我们通常获取更多的信息来增加确定性(减小熵)。现实系统中,通过消耗能量来增加确定性。

p ( x ) = 1 , H ( x ) = 0 p(x)=1,H(x)=0 p(x)=1,H(x)=0

某一个事件有2结果,概率为1/2那么 H ( x ) = − ( 1 2 l o g 2 1 / 2 + 1 2 l o g 2 1 / 2 ) = 1 H(x)=-(\frac{1}{2}log_21/2 + \frac{1}{2}log_21/2)=1 H(x)=(21log21/2+21log21/2)=1

联合熵

同时考虑两个随机变量x,y

H ( X , Y ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) l o g 2 p ( x , y ) H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y) H(X,Y)=xX,yYp(x,y)log2p(x,y)

条件熵

简单理解,条件熵是在一个随机变量已知的情况下,另一个随机变量减少的程度。是一个非对称的度量

H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)-H(X) H(YX)=H(X,Y)H(X)

但是不一定 H ( Y ∣ X ) = H ( X ∣ Y ) H(Y|X)=H(X|Y) H(YX)=H(XY)

互信息

是一个对称的度量,

I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)H(XY)

I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = ∑ x ∈ X , y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) I(X;Y)=H(X)+H(Y)-H(X,Y)=\sum_{x\in X,y \in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} I(X;Y)=H(X)+H(Y)H(X,Y)=xX,yYp(x,y)logp(x)p(y)p(x,y)

如果两个随机变量是独立的,p(x,y)=p(x)p(y)那么I(X,Y)=0。如果p(y|x)=1,那么根据贝叶斯可得p(x,y)=p(x),I(X;Y)=H(Y),X,Y的互信息包含了Y的所有不确定性

例子

X\Y明天下雨明天不下雨
今天下雨0.120.08
今天不下雨0.080.72

对于两个随机变量X,Y,分别有两个取值。

X:p(今天下雨)=0.2 p(今天不下雨)=0.8

Y:p(明天下雨)=0.2 p(明天不下雨)=0.8

并且还可以获得每个取值的联合概率,如p(今天下雨,明天下雨)=0.12

H ( X ) = H ( Y ) = − ∑ x ∈ X p ( x ) l o g 2 p ( x ) = − ( 0.2 l o g 2 0.2 + 0.8 l o g 2 0.8 ) = 0.722 H(X)=H(Y)=-\sum_{x\in X}p(x)log_2p(x)=-(0.2log_20.2 + 0.8log_20.8)=0.722 H(X)=H(Y)=xXp(x)log2p(x)=(0.2log20.2+0.8log20.8)=0.722

H ( X , Y ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) l o g 2 p ( x , y ) = − ( 0.12 l o g 2 0.12 + 0.08 l o g 2 0.08 + 0.08 l o g 2 0.08 + 0.72 l o g 2 0.72 ) = 1.291 H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y)=-(0.12log_20.12+0.08log_20.08+0.08log_20.08+0.72log_20.72)=1.291 H(X,Y)=xX,yYp(x,y)log2p(x,y)=(0.12log20.12+0.08log20.08+0.08log20.08+0.72log20.72)=1.291

H ( Y ∣ X ) = H ( X , Y ) − H ( X ) = 0.569 H(Y|X)=H(X,Y)-H(X)=0.569 H(YX)=H(X,Y)H(X)=0.569

I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = 0.722 + 0.722 − 1.291 = 0.153 I(X;Y)=H(X)+H(Y)-H(X,Y)=0.722+0.722-1.291=0.153 I(X;Y)=H(X)+H(Y)H(X,Y)=0.722+0.7221.291=0.153

任意一天下雨的熵为0.722,如果前后两天的天气相互独立, I ( X ; Y ) = 0 , H ( X , Y ) = H ( X ) + H ( Y ) I(X;Y)=0,H(X,Y)=H(X)+H(Y) I(X;Y)=0,H(X,Y)=H(X)+H(Y),那么联合熵是0.722*2=1.444,但真实情况为1.291,表明他们之间的互信息的0.153。今天的天气使得明天天气的熵从0.722降低到了0.569.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值