概率分布的一些特性

最新推荐文章于 2023-12-29 01:50:52 发布

t'zone

最新推荐文章于 2023-12-29 01:50:52 发布

阅读量370

点赞数

文章标签：概率论机器学习

本文链接：https://blog.csdn.net/qq_40605843/article/details/120294273

版权

统计机器翻译笔记 chapter3 概率论
博客：https://www.tzer.top/

数据样本集合的特性

均值

对于一个数据样本集合 ${x_1,x_2,...,x_n}$ 均值为 $\overline x$

$\overline x=\frac{1}{n}\sum_i^nx_i$

方差

样本个体偏离平均值的程度。方差计算的是每个样本与均值之差的平方的算数平均值。

$\sigma^2=\frac{1}{n}\sum_{i}^{n}{(x_i - \overline x)^2}$

概率分布的特性

期望

概率分布的均值称为期望，随机变量 $X$ 的期望定义如下：

$E[X]=\sum_{x\in X}xp(x)$

对于随机变量每个可能的取值 $x_i$ ,与其对应概率加权求和。

方差

$Var[X]=\sum_{x\in X}(x-E[X])^2p(x)$

相当于随机变量的每个取值与期望的差的平方的期望，可以写为

$Var[X]=E[(x-E[X])^2]$

如果从样本数据中估计概率分布，需要样本的均值与概率分布的期望相同。如果已知一个概率分布，就可以得出样本数据的均值和方差。

熵

一个随机变量X的熵为：

$H(X)=-\sum_{x\in X}p(x)log_2p(x)$

概率越大，事件发生的不确定性越小，熵越小。模型中我们通常获取更多的信息来增加确定性（减小熵）。现实系统中，通过消耗能量来增加确定性。

$p (x) = 1, H (x) = 0$

某一个事件有2结果，概率为1/2那么 $H(x)=-(\frac{1}{2}log_21/2 + \frac{1}{2}log_21/2)=1$

联合熵

同时考虑两个随机变量x,y

$H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y)$

条件熵

简单理解，条件熵是在一个随机变量已知的情况下，另一个随机变量减少的程度。是一个非对称的度量

$H (Y ∣ X) = H (X, Y) - H (X)$

但是不一定 $H (Y ∣ X) = H (X ∣ Y)$

互信息

是一个对称的度量,

$I (X; Y) = H (X) - H (X ∣ Y)$

$I(X;Y)=H(X)+H(Y)-H(X,Y)=\sum_{x\in X,y \in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$

如果两个随机变量是独立的，p(x,y)=p(x)p(y)那么I(X,Y)=0。如果p(y|x)=1，那么根据贝叶斯可得p(x,y)=p(x),I(X;Y)=H(Y)，X，Y的互信息包含了Y的所有不确定性

例子

X\Y	明天下雨	明天不下雨
今天下雨	0.12	0.08
今天不下雨	0.08	0.72

对于两个随机变量X,Y，分别有两个取值。

X：p(今天下雨)=0.2 p(今天不下雨)=0.8

Y：p(明天下雨)=0.2 p(明天不下雨)=0.8

并且还可以获得每个取值的联合概率，如p(今天下雨，明天下雨)=0.12

$H(X)=H(Y)=-\sum_{x\in X}p(x)log_2p(x)=-(0.2log_20.2 + 0.8log_20.8)=0.722$

$H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y)=-(0.12log_20.12+0.08log_20.08+0.08log_20.08+0.72log_20.72)=1.291$

$H (Y ∣ X) = H (X, Y) - H (X) = 0.569$

$I (X; Y) = H (X) + H (Y) - H (X, Y) = 0.722 + 0.722 - 1.291 = 0.153$

任意一天下雨的熵为0.722，如果前后两天的天气相互独立， $I (X; Y) = 0, H (X, Y) = H (X) + H (Y)$ ,那么联合熵是0.722*2=1.444,但真实情况为1.291，表明他们之间的互信息的0.153。今天的天气使得明天天气的熵从0.722降低到了0.569.