![f835ed52b231fe402e9754e7695ef566.png](https://i-blog.csdnimg.cn/blog_migrate/b9a8e4577889b771af861b89cf5a96bb.jpeg)
1.信息量
①事件信息量和该事件发生的概率有关;
②设事件
③本文所有log均为已e为底;
信息量为:
④可以说,发生概率越小,信息量越大
2.熵(Entropy)
所有信息量的期望:
3.相对熵(KL散度)(Relative Entropy)
①如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度来衡量这两个分布的差异;
②在机器学习中,P往往用来表示样本的真实分布,比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布,比如[0.7,0.2,0.1]。 直观的理解就是如果用P来描述样本,那么就非常完美。而用Q来描述样本,虽然可以大致描述,但是不是那么的完美,信息量不足,需要额外的一些“信息增量”才能达到和P一样完美的描述。如果我们的Q通过反复训练,也能完美的描述样本,那么就不再需要额外的“信息增量”,Q等价于P;
KL散度:
③n为事件的所有可能性;
④DKL的值越小,表示Q分布和P分布越接近;
4.交叉熵(Cross Entropy)
对上式变形可得:
等式的前一部分恰巧就是P的熵,等式的后一部分,就是交叉熵:
在机器学习中,我们需要评估label和predicts之间的差距,使用KL散度刚刚好,即DKL(y||y^),由于KL散度中的前一部分−H(y)不变(样本分布不变),故在优化过程中,只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss function,评估模型。
感谢原作者:
【史丹利复合田的博客】 - CSDN博客blog.csdn.nethttps:// blog.csdn.net/tsyccnh/a rticle/details/79163834