熵
在信息论与概率统计中,熵(entropy) 是表示随机变量不确定性的度量。设 X X X是一个取有限个值的离散随机变量,其概率分布为:
P ( X = x i ) = p i , i = 1 , 2 , ⋯ , n P(X=x_i)=p_i,i=1,2,\cdots,n P(X=xi)=pi,i=1,2,⋯,n
则随机变量 X X X的熵定义为:
H ( X ) = − ∑ i = 1 n p i log p i (1) H(X)=-\sum_{i=1}^n p_i \log p_i \tag{1} H(X)=−i=1∑npilogpi(1)
上述公式中,当对数以 2 2 2为底时,熵的单位称作比特(bit);当以 e e e为底时,熵的单位称作纳特(nat)。从定义中可以看出,熵只依赖于 X X X的分布,与 X X X的具体取值无关,所以,也可以将 X X X的熵记作 H ( p ) H(p) H(p),如下:
H ( p ) = − ∑ i = 1 n p i log p i (2) H(p)=-\sum_{i=1}^n p_i \log p_i \tag{2} H(p)=−i=1∑npilogpi(2)
注释
X X X的熵也可以解释为随机变量 log 1 p ( x ) \log \frac{1}{p(x)} logp(x)1的期望。
熵越大,随机变量的不确定性就越大。从定义可以验证
0 ≤ H ( p ) ≤ log n (3) 0 \leq H(p) \leq \log n \tag{3} 0≤H(p)≤logn(3)
当随机变量只取两个值,例如 1 1 1, 0 0 0时,即 X X X的分布为
P ( X = 1 ) = p , P ( X = 0 ) = 1 − p , 0 ≤ p ≤ 1 P(X=1)=p,P(X=0)=1-p,0 \leq p \leq 1 P(X=1)=p,P(X=0)=1−p,0≤p≤1
熵为:
H ( p ) = − ∑ i = 1 n p i log