深度学习(一):交叉熵损失函数,信息量,熵,KL散度

本文深入探讨了交叉熵损失函数的来源和意义,解释了信息量、熵的概念,并详细阐述了相对熵(KL散度)如何衡量概率分布差异。通过实例展示了在二分类问题中,如何利用交叉熵作为损失函数进行模型优化。
摘要由CSDN通过智能技术生成

交叉熵损失函数「Cross Entropy Loss」,我们第一印象就是它如下的公式:

大多数情况下都是直接拿来使用就好,但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?交叉熵函数是否有其它变种?

信息量

事件A:巴西队进入了2018世界杯决赛圈。 
事件B:中国队进入了2018世界杯决赛圈。 

直觉来说,显而易见事件B的信息量比事件A的信息量要大。究其原因,是因为事件A发生的概率很大,事件B发生的概率很小。所以当越不可能的事件发生了,我们获取到的信息量就越大。越可能发生的事件发生了,我们获取到的信息量就越小。那么信息量应该和事件发生的概率有关。

设X是一个离散型随机变量,X=x0的信息量为:

根据log函数曲线,我们可知,概率越大,信息量越小

熵(entropy)表示随机变量不确定性的度量,熵就是用来表示信息量的期望:

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值