自信息:一个随机事件所包含的信息量
一个随机事件发生的概率越高,其自信息越低.必然事件自信息为0
对于一个随机变量 𝑋(取值集合为 𝒳,概率分布为 𝑝(𝑥), 𝑥 ∈ 𝒳)
当 𝑋 = 𝑥 时的自信息𝐼(𝑥)定义为: 𝐼(𝑥) = − log 𝑝(𝑥)
熵(entropy):无损编码事件信息的最小平均编码长度
熵为自信息的数学期望
也可用来衡量随机事件的不确定性,如下例兔的熵大于猫的(编码长度:3 > 1)
对每个可能性事件进行编码,计算他们的编码长度,最短的为熵
类似哈夫曼树,编码不能有二义性:
例:四种事件的编码分别为 10、11、 1、110,前两种编码和后两种编码都可组成1110的编码段
编码方式 | 猫(50%) |