相对熵与交叉熵_相对熵、交叉熵

f835ed52b231fe402e9754e7695ef566.png

1.信息量

①事件信息量和该事件发生的概率有关;

②设事件

,则发生的概率为
;

③本文所有log均为已e为底;

信息量为:

④可以说,发生概率越小,信息量越大

2.熵(Entropy)

所有信息量的期望:

3.相对熵(KL散度)(Relative Entropy)

①如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度来衡量这两个分布的差异;

②在机器学习中,P往往用来表示样本的真实分布,比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布,比如[0.7,0.2,0.1]。 直观的理解就是如果用P来描述样本,那么就非常完美。而用Q来描述样本,虽然可以大致描述,但是不是那么的完美,信息量不足,需要额外的一些“信息增量”才能达到和P一样完美的描述。如果我们的Q通过反复训练,也能完美的描述样本,那么就不再需要额外的“信息增量”,Q等价于P;

KL散度:

③n为事件的所有可能性;

④DKL的值越小,表示Q分布和P分布越接近;

4.交叉熵(Cross Entropy)

对上式变形可得:

等式的前一部分恰巧就是P的熵,等式的后一部分,就是交叉熵:

在机器学习中,我们需要评估label和predicts之间的差距,使用KL散度刚刚好,即DKL(y||y^),由于KL散度中的前一部分−H(y)不变(样本分布不变),故在优化过程中,只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss function,评估模型。

感谢原作者:

【史丹利复合田的博客】 - CSDN博客​blog.csdn.net
https:// blog.csdn.net/tsyccnh/a rticle/details/79163834
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值