【王木头学科学|深度学习】5. “交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

笔记来源于B站UP主@王木头学科学
笔记来源https://www.bilibili.com/video/BV15V411W7VB/?spm_id_from=333.788.recommend_more_video.-1

为什么要用熵?如果两种模型不是同类模型,可以找到一个中介这个中介就是,先把模型转换成熵这个数值,然后再用这个数值去比较不同模型之间的差异。在讲解熵之前,先要了解什么是信息量

“熵”具有热力学的概念也有信息论的概念,这里主要是信息论的概念。

1. 信息量

要看一个信息是否有信息量不仅是看这个信息到底是你知道还是不知道,关键是给你能带来多少的确定性。
比如,这八个球队获得冠军的概率都是1/8,阿根廷进入决赛和阿根廷获得冠军的所得到的信息量是不一样的,一个是从1/8到1/2,一个是1/8到1,很显然阿根廷获得冠军这个带来的信息量更大,那如何定量的描述信息量呢?
在这里插入图片描述
信息量f(x)的定义(:= 表示定义符号)(定义一个物理量,最后的结果就是要让整个体系自洽,比如牛顿的第二定律,和万有引力定律)
在这里插入图片描述
——————————————————————————
在这里插入图片描述
阿根廷夺冠的信息量是等于阿根廷进决赛和进决赛之后阿根廷赢了比赛信息量是相等的,同事这也是概率事件,所以得出下面的式子。
在这里插入图片描述
在这里插入图片描述
由里面的相乘变成相加,log就起到了作用(这只是定义,并没有什么具体的意义,这个意义是定义了,才赋予的,只要最终得出的结果保持自洽)最终定义的信息量的式子为

在这里插入图片描述

上式加上负号是比较符合我们的直觉,因为log函数是单调递增的,而我们知道,一个事件发生的概率越小,它的信息量就越大,所以加上负号,让函数递减。至于底数选择多少就没有太大的讲究,这里主要取2,因为它还有更多意义。
最后计算例子的信息量为3,即阿根廷夺冠的信息量为3
在这里插入图片描述

现在分析以2为底计算信息量有什么具体的意义:以2 为底计算出来的信息量是有单位的,这个单位是比特,比如某个球队夺冠的概率是1/1024,那么它夺冠的信息量就是10比特。

总结:信息量可以理解为,一个事件由原来的不确定变得确定,它的难度有多大,信息量比较大,就说明它的难度比较高。也比较类似,不过熵不是表示具体的事件,而是整个系统里所有的事件,也就是一个系统由原来的不确定到现在的确定,难度有多大。

2. 熵

有两个系统,分别求他们的信息量。显然我们知道,左边球队谁赢的不确定性更高,也就是他们的信息量比右边的信息量更大,所以不应该是简单的相加。
在这里插入图片描述
所以要计算某个系统的某个事件的信息量对整个系统的贡献有多大,还有乘上它的比例才行。
在这里插入图片描述
我们可以看到一个系统中,某个值,乘上它在整个系统中的占比,然后全部相加,这就是期望。所以我们可以对熵进行定义了。

熵的定义:如下图,假如有一个概率系统P,对这个概率系统P求熵,这个熵定义成对这个系统f信息量求期望。
在这里插入图片描述

3. 相对熵(KL散度)

相对熵不是一个概率系统的概念了,这里提供两个概率系统,P、Q两个系统
在这里插入图片描述
计算KL散度,(这里P、Q的位置有不同的意义,P在前是表示以P为基准)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
p的熵是恒定的,所以关键是要看前半部分,这部分就是交叉熵了,

在这里插入图片描述
我们知道上面两个式子都是大于0的,又根据吉布斯不等式,P的KL散度一定是大于0的,
在这里插入图片描述
所以想要让P的概率模型和Q的概率模型非常接近,只需要找到交叉熵最小的那个值就行了。也就是说交叉熵这个式子本身就可以作为损失函数

4. 交叉熵应用于神经网络

在这里插入图片描述
在这里插入图片描述
由此可见,交叉熵极大似然估计法退出来的式子是一样的,

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值