预备基础概念
- X : 随机变量
- x : 随机变量X的具体取值
- P(X) : 随机变量X的概率分布
- P(X,Y) : 随机变量X,Y的联合概率分布
- P(Y|X) : 已知随机变量X的情况下,随机变量Y的条件概率分布
- P(X=x) => p(x) : 随机变量取某个值的概率
- P(X=x,Y=y) => p(x,y) : 联合概率
- P(X=x|Y=y) =>p(y|x) : 条件概率 、
- 且有 p(x,y) = p(x)*p(y|x)
信息量
事件的不确定性
事件发生的概率越大,信息量越小,事件发生的概率越小,信息量越小;
正好符合-logP 函数
熵
简单来讲,就是指所有信息量的期望
如果一个随机变量X的可能取值为X = {
x 1 , x 2 , . . . , x k x_{1},x_{2},... ,x_{k} x1,x2,...,xk}
其概率分布为P(X= x i x_{i} xi) = p i p_{i} pi (i = 1,2,…,n)
则随机变量的熵定义为
H ( X ) = − ∑ x p ( x ) l o g p ( x ) H(X) = -\sum_{x}p(x)logp(x) H(X)=−x∑p(x)logp(x)
等价于
H ( X ) = ∑ x p ( x ) l o g 1 p ( x ) H(X) = \sum_{x}p(x)log\frac{1}{p(x)} H(X)=x∑p(x)logp(x)1
联合熵
两个随机变量X,Y的联合分布
H ( X , Y ) = ∑ x , y p ( x , y ) l o g 1 p ( x , y ) H(X,Y) = \sum_{x,y}p(x,y)log\frac{1}{p(x,y)} H(X,Y)=x,y∑p(x,y)logp(x,y)1
条件熵
在随机变量X发生的前提下,随机变量Y发生所带来的熵定义为Y的条件熵
主要用来衡量在已知随机变量X的条件下随机变量Y的不确定性
H ( Y ∣ X ) = H ( X , Y ) = H ( X ) H(Y|X) = H(X,Y) = H(X) H(Y∣X)=H(X,Y)=H(X) 表示(X,Y)发生所包含的熵减去X单独发生包含的熵
推导
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X) = H(X,Y) - H(X) H(Y∣X)=