主要是学习七月算法熵与信息量所作的一些笔记,当然也参考了一些博客,这里对他们表示衷心的感谢!
自信息
如果
说概率
p
是对确定性的度量,那么信息就是对不确定性的度量。
I(x) = -log(p(x))
如果两个事件X和Y独立,即p(xy)=p(x)p(y),假定X和Y的信息量分别为I(x)和I(y),则二者同时发生的信息量应该为
如果两个事件X和Y独立,即p(xy)=p(x)p(y),假定X和Y的信息量分别为I(x)和I(y),则二者同时发生的信息量应该为
I(x^y)=I(x)+I(y)
信息熵:自信息的期望
信息熵的公式:
同时信息熵也反应了一个系统的有序化程度,一个系统越是有序,那么它的信息熵就越低,反之越高。
联合熵
两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。
条件熵
条件熵的计算公式:
H(X,Y) – H(Y)
(X,Y)发生所包含的熵,减去Y单独发生包含的熵:在Y发生的前提下,X发生“新”带来的熵。
该式子定义为Y发生前提下,X的熵:H(X|Y)。
条件熵公式的推导:
KL(Kulback-Leible)散度:
kL散度也称互熵,相对熵,鉴别信息。KL散度是衡量两个分布的距离。
设P(x)和q(X)是X取值的两个概率分布,则P对q的KL散度为:
KL散度的性质:
(1)尽管KL散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即
(2)相对熵的值为非负值,即
在证明之前,需要认识一个重要的不等式,叫做吉布斯不等式。内容如下
互信息(信息增益)
定义:i(y,x)=i(y)-i(y|x)=log(p(y|x)/p(y))
在信号与系统中,互信息表示为收信者收到信息x后,对信源发Y的不确定性的消除,
实际上我们更关心不确定性的减少。
互信息的另外一种表示:
互
信息的对称性:
平均互信息:
决策树中的“信息增益”其实就是平均互信息I(X,Y)。
条件熵与平均互信息的关系:
以上是公式对二者关系的表示,下面的图则更形象和直观。
从上面
的图中可以清楚的看出互信息I(X,Y)的不同表示方法。
各个熵之间的关系:
参考文献:
http://blog.csdn.net/haolexiao/article/details/70142571
http://blog.csdn.net/acdreamers/article/details/44657745