1.信息量
假设X是一个离散型随机变量,其取值集合为 X X ,概率分布函数为 p(x)=Pr(X=x),x∈X p ( x ) = P r ( X = x ) , x ∈ X ,我们定义事件 X=x0 X = x 0 的信息量为: I(x0)=−log(p(x0)) I ( x 0 ) = − l o g ( p ( x 0 ) ) 可以理解为,一个事件发生的概率越大,则它所携带的信息量就越小,而当p(x0)=1时,熵将等于0,也就是说该事件的发生不会导致任何信息量的增加。
2.熵的概念
对于一个随机变量X而言,它的所有可能取值的信息量的期望E[I(x)]就称为熵。
X的熵的定义为:
H(X)=Eplog1p(x)=−∑x∈Xp(x)logp(x) H ( X ) = E p log 1 p ( x ) = − ∑ x ∈ X p ( x ) log p ( x )
如果p(x)是连续型随机变量的pdf,则熵定义为: