信息量的定义
某事件发生的概率小,则该事件的信息量大。
定义随机变量 X X 的概率分布为
, X X 的信息量为:
.
熵
对随机事件的信息量求期望,得到随机变量X的熵:
H(X)=−∑x∈XP(x)logP(x)
当对数底数是2时,单位是bit,当对数底数是e时,单位是nat(奈特)。同时,若P(x)=0,则定义0log0=0。由熵定义可知,随机变量的熵只依赖于X的分布,而与X的取值无关。
熵表示的是随机变量不确定性的度量。熵越大,随机变量的不确定性也就越大。
两点分布的熵
H(X)=−∑x∈XP(x)logP(x)=−plog2p−(1−p)log2(1−p) H ( X ) = − ∑ x ∈ X P ( x ) log P ( x ) = − p log 2 p − ( 1 − p ) log 2 ( 1 − p )
这时,熵 H(X) H ( X ) 随概率 p p 变化的曲线如下图所示。
当
或 p=1 p = 1 时,随机变量完全没有不确定性。当 p=0.5 p = 0.5 时, H(X)=1 H ( X ) = 1 ,熵取得最大值,随机变量的不确定性最大。
离散随机变量的最大熵
假设离散随机变量 X X 的概率分布是 ,则其熵是:
H(X)=−∑x∈XP(x)logP(x) H ( X ) = − ∑ x ∈ X P ( x ) log P ( x )
熵满足下列不等式:
0≤H(X)≤log|X| 0 ≤ H ( X ) ≤ log | X |
其中 |X| | X | 是 X X 的取值个数,当且仅当 的分布是均匀分布时右边的等号成立。也就是说,当 X X 服从均匀分布时,熵最大。
给定期望和方差,最大熵的分布形式
正态分布的概率密度函数为:
对数正态分布为:
lnf(x)=ln12π−−√−lnσ−−(x−μ)22σ2=α⋅x2+β⋅x+γ ln f ( x ) = ln 1 2 π − ln σ − − ( x − μ ) 2 2 σ 2 = α ⋅ x 2 + β ⋅ x + γ
该分布的对数是关于随机变量 X X 的二次函数。根据计算过程的可逆性,若某对数分布能够写成随机变量二次形式,该分布必然是正态分布。
目标函数为:
由约束条件 E(X)