交叉熵的公式是怎么来的

最新推荐文章于 2024-04-14 20:09:24 发布

IT莫莫

最新推荐文章于 2024-04-14 20:09:24 发布

阅读量4.3k

点赞数 2

分类专栏：机器学习基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gt362ll/article/details/81316502

版权

机器学习基础专栏收录该内容

15 篇文章 1 订阅

订阅专栏

交叉熵损失函数是机器学习中一个常见的损失函数，用来衡量目标与预测值之间的差距，看着公式能感觉到确实有种在衡量差距的感觉，但是又说不出为什么有这种作用。下面从信息量-信息熵-交叉熵的步骤来看交叉熵公式的意义。

信息量

信息量是我们能获得未知信息的多少，比如我说周杰伦某天开演唱会，这件事信息量就很小，因为演唱会哪天开已经公布了，这件事发生的概率很大，不用我说你也知道。但是我如果说周杰伦出轨了，这件事的信息量就很大了，因为这件事几率很小，我们都想不到他会出轨。这种越不可能发生的事，也就是概率越小，其信息量也就越大，定义为：

假设 $X$ 是一个离散型随机变量，其取值集合为 $\chi$ ,概率分布函数 $p(x)=Pr(X=x),x\in\chi$ ,则定义事件 $X=x_0$ 的信息量为：

$I(x_0)=-log(p(x_0))$

通过观察可以发现，这个表达式很好的满足了在概率中的两点要求：

两件不相关的事，它们同时发生的信息量应该等于分别发生时所获得的信息量，即 $h(x,y)=h(x)+h(y)$
独立事件满足 $p(x,y)=p(x)*p(y)$

之所以加负号是因为概率在(0,1)，取log之后是负的，用负数表示信息不符合我们的认知逻辑，所以取负让信息量为正

信息熵

在高中学化学的时候我们学过熵的概念，熵用来表示一个系统内的混乱程度，放到概率中可以理解为表示一个事件发生各种情况下的确定性，定义为：

信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即

$H(X)=-\sum_{i=1}^{n}p(x_i)logp(x_i)$

相对熵(KL散度)

下面回到机器学习中，在机器学习中，模型通过特征给出一个预测结果，现在我们想知道预测的和真实的label有什么差异，即预测和真实之间的分布有什么差异，差异是多少。

相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异，计算公式为：

$D_{KL}(p||q)=\sum_{i=1}^n p(x_i)log(\frac{p(x_i)}{q(x_i)})$

注意相对熵没有对称性，p和q换位后并不等价。在这里规定P表示真实分布，Q表示预测分布，当p,q同分布的时候相对熵最小。

交叉熵

将相对熵的公式展开后：

$D_{KL}(p||q)=\sum_{i=1}^n p(x_i)log(p(x_i))-\sum_{i=1}^n p(x_i)log(q(x_i)) =-H(p(x_i))+[-\sum_{i=1}^n p(x_i)log(q(x_i)]$

变形后前一部分是p的熵，后一部分就是交叉熵：

$H(p,q)=-\sum_{i=1}^{n} p(x_i)log(q(x_i))$

在机器学习优化中，由于label的分布不变，熵不变，优化时可以去掉，只看交叉熵。

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
交叉熵的公式是怎么来的

交叉熵损失函数是机器学习中一个常见的损失函数，用来衡量目标与预测值之间的差距，看着公式能感觉到确实有种在衡量差距的感觉，但是又说不出为什么有这种作用。下面从信息量-信息熵-交叉熵的步骤来看交叉熵公式的意义。信息量信息量是我们能获得未知信息的多少，比如我说周杰伦某天开演唱会，这件事信息量就很小，因为演唱会哪天开已经公布了，这件事发生的概率很大，不用我说你也知道。但是我如果说周杰伦出轨了，这件...
复制链接

扫一扫

专栏目录

IT莫莫 CSDN认证博客专家 CSDN认证企业博客

码龄11年

104: 原创

27万+: 周排名

119万+: 总排名

5万+: 访问

: 等级

1505: 积分

4: 粉丝

19: 获赞

6: 评论

76: 收藏

私信

关注

热门文章

分类专栏

最新评论

45. Jump Game II
CSDN-Ada助手: 非常感谢CSDN博主分享的关于“Jump Game II”的博客。我觉得这篇文章非常有价值，特别是对于那些正在学习或者准备面试算法的读者来说。建议下一篇博客可以继续深入探讨算法相关的话题，比如可以写一篇关于“贪心算法”的博客，介绍贪心算法的基本思想、应用场景以及实现方法等，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
二分类问题输出一个节点还是两个节点
gr986: 我也有这个问题
二分类问题输出一个节点还是两个节点
Xinzhi Wang: +1
二分类问题输出一个节点还是两个节点
qq_29345079: 二分类，应该设置2个输出节点，还是1个输出节点呢
机器学习 (一)：线性回归
wujianqinjian: >_ | _<

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。