交叉熵损失相关概念的简单理解

小白的努力探索

已于 2023-04-19 16:45:12 修改

阅读量118

点赞数

分类专栏：暂存管理文章标签： python 人工智能

于 2023-01-20 18:08:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44928822/article/details/128742118

版权

暂存管理专栏收录该内容

5 篇文章 0 订阅

订阅专栏

交叉熵损失相关概念的简单理解

1.信息量

衡量信息量的大小是看这个信息消除不确定性的程度。

举例来说，随便说一句话，话中阐述的事情发生的可能性越大，那么这句话所包含的信息量就越小。

更具体点说，“明天地球会继续绕着太阳转的同时保持自转”，这种正确的废话，毫无信息量。而“明天地球就要停转了”，这句话所蕴含的事情几乎不可能发生，所以信息量反而很大。

定性来说，信息量的大小与信息中包含事件发生的概率成反比。

定量来说，计算信息量的公式如下，P(x)是信息中蕴含事件的发生概率。

在这里插入图片描述

2.信息熵

信息熵用来表示信源所有信息量的期望。

信息熵计算公式如下

在这里插入图片描述

信息熵是对事件不确定度的一种度量。信息熵越大，说明事物越具有不确定性。信息量是消除不确定性的程度，综上而信息熵的大小则体现了事件的不确定程度。一个是消除，一个是体现。

实际上，前面的有个大概的概念就行，并非关键。接下来的才是关键。

3.相对熵（KL散度）

回想一下，能用到softmax + corss entropy的情况基本上就是分类问题。而分类问题衡量的关键正是通过softmax获得的置信度分布与独热码间的相似程度，因此急需一个衡量两组数据（概率分布）相似程度的工具。这就引出了相对熵。

对于同一个随机变量X有两个概率分布 P ( x ) 和 Q ( x ) （为方便理解不妨认为P（X）是独热编码，Q（X）是softmax输出的置信度分布），则相对熵（KL散度）就可以很好的衡量这两个概率分布之间的差异。

相对熵的公式如下

在这里插入图片描述

由上式不难发现，相对熵越小，说明两个分布越接近。

4.交叉熵

既然有了相对熵为什么还要搞一个交叉熵，大概是为了简化计算。

先把相对熵的式子展开来看

在这里插入图片描述

显然H（P（X））是P（X）的信息熵，而P（X）是X的真实分布（独热编码）是个已经确定的数据，因此它的信息熵应该是个常数，与Q（X）的变化无关，因此它对衡量P（X），Q（X）的相似程度是没有贡献的，只是徒增计算量罢了。所以干脆就不要管它，只算中括号中的那部分就好了。

中括号的那部分正是交叉熵。

正式给出交叉熵的定义

在这里插入图片描述

同相对熵类似，两个分布越是接近，其交叉熵就越小。

5.softmax

softmax在机器学习上的最大意义就是确保各个预测结果的概率之和等于1。（更符合概率论的观点，也更容易与独热编码计算）

其公式为

在这里插入图片描述

小白的努力探索

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。