信息量
I ( x ) = log 2 ( 1 p ( x ) ) = − log 2 ( p ( x ) ) I(x)=\log_{2}{(\frac{1}{p(x)}) } =-\log_{2}{(p(x))} I(x)=log2(p(x)1)=−log2(p(x))
I(x)就是信息量;p(x)是一个独立事件发生的概率。
一个小概率事件的发生意味着大信息量,比如中彩票;一个大概率事件的发生意味着小信息量,比如晴天;所以p(x)越小,I(x)越大。
香农熵
熵是用于描述概率分布的不确定性。
H ( p ) = ∑ p i I i p = ∑ p i log 2 ( 1 p ( x ) ) = − ∑ p i log 2 ( p ( x ) ) H(p )=\sum p_{i} I_{i}^{p} =\sum p_{i}\log_{2}{(\frac{1}{p(x)}) }=-\sum p_{i}\log_{2}{(p(x))} H(p)=∑piIip=∑pilog2(p(x)1)=−∑pilog2(p(x))
H(p)是香农熵,
p
i
p_{i}
pi是指第i个事件发生的概率,
I
i
p
I_{i}^{p}
Iip是指第i个事件的信息量。
对于正反面概率相等的抛硬币,即p=0.5,得到香农熵为1。
对于正反面概率不相等的抛硬币,假设p=0.2,得到香农熵为0.72。
事件结果越确定,香农熵越小,概率分布密度越聚拢。
交叉熵
从香农熵衍生而来。
H ( p , q ) = ∑ p i I i q = ∑ p i log 2 ( 1 q ( x ) ) = − ∑ p i log 2 ( q ( x ) ) H(p,q )=\sum p_{i} I_{i}^{q} =\sum p_{i}\log_{2}{(\frac{1}{q(x)}) }=-\sum p_{i}\log_{2}{(q(x))} H(p,q)=∑piIiq=∑pilog2(q(x)1)=−∑pilog2(q(x))
q是对事件真实发生概率的猜测,即预测值;p是事件真实发生概率,即标签。
当q>p时,H(p,q)>1,且q和p相差越大,H(p,q)也越大。
当q<p时,0<H(p,q)<1,且q和p相差越大,H(p,q)越小,越趋于0。
当q=p时,H(p,q)=1。
KL散度
衡量两个概率分布的区别。
D ( p , q ) = H ( p , q ) − H ( p ) = ∑ p i log 2 ( p i q i ) D(p,q)=H(p,q)-H(p)=\sum p_{i}\log_{2}{(\frac{p_i}{q_i}) } D(p,q)=H(p,q)−H(p)=∑pilog2(qipi)
D(p,q)是KL散度,也是相关熵。
当两个概率分布一致时,D(p,q)=0;
两个概率分布不一致时,D(p,q)>0。
D(p,q)不等于D(q,p),这不是距离的衡量。