熵:反应一个系统的有序程度,熵越高,有序程度越低
熵的本质是香农信息量 (log1p) 的期望。
- 自信息
用于衡量单一事件发生时所包含的信息量多寡,记作 I(X)
I(x)=−logP(x)
P(x) 越小,表示单一事件的发生概率越小,一旦发生,则包含的信息量越多,则 I(x) 越大。若 P(x)=1 ,则自信息量为0。
就像打辩论的时候讲一件众所周知的事情等于没讲一样,不能带来任何信息。
- 信息熵
对于随机变量 X ,若
X ={ x1,x2,...,xn },其对应概率为 P(X=xi),i=1,2,...n
则随机变量 X 的熵定义为:
H(X)=E[I(X)]=−∑i=1np(xi)logp(xi)
当 p(xi) 越大,则 H(x) 越小
- 联合熵
假设 X,Y 的联合分布为 P(X,Y) ,则其信息熵为:
H(X,Y)=E[I(X,Y)]=−∑x,yp(x,y)logp(x,y)
- 条件熵
条件熵描述了在已知随机变量 X 的值的情况下关于随机变量
Y 的信息熵
若 H(Y|X=x) 表示在 X=x 的情况下 Y 的信息熵,则,
H(Y|X)=−∑xp(x)H(Y|X=x)=−∑xp(x)∑yp(y|x)l