分类问题为什么要用交叉熵

funNLPer

已于 2023-09-17 12:45:26 修改

阅读量4.6k

点赞数 12

分类专栏：机器学习文章标签：机器学习深度学习信息熵

于 2020-09-01 18:14:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/orangerfun/article/details/108346979

版权

一提到分类，大家想到的损失函数就是交叉熵，但是有没有想过为什么分类问题要用交叉熵损失，为什么不用均方误差损失呢？本文将详细介绍交叉熵的由来，并分析为什么不使用均方误差。

文章目录

1. 信息熵
2. 相对熵（KL散度）
3. 交叉熵
4.为什么使用交叉熵而不适用均方误差
5. 总结
reference

🤗欢迎关注公众号 funNLPer🤗

1. 信息熵

信息熵就是信息的不确定程度，信息熵越小，信息越确定
$信息熵=\sum 事件x发生的概率*验证事件x需要的信息量$

事件发生的概率越低，需要越多的信息去验证，所以验证真假需要的信息量和事件发生的概率成反比，假设信息量为 $I (x)$
$-log\, p(x)$

其中负号是用来保证信息量是正数或者零， $p (x)$ 是事件 $x$ 发生的概率， $I (x)$ 也被称为随机变量 $x $的自信息 (self-information)，描述的是随机变量的某个事件发生所带来的信息量

信息熵即所有信息量的期望
$H(X)=-\sum_{x} p(x) \log (p(x))=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)$

其中 $n$ 为事件的所有可能性

2. 相对熵（KL散度）

相对熵又称KL散度，如果对于同一个随机变量 $x$ 有两个单独的概率分布 $p (x)$ 和 $q (x)$ ，可以使用相对熵来衡量这两个分布的差异。

$D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)$

最低0.47元/天解锁文章

关注

12
点赞
踩
26

收藏

觉得还不错? 一键收藏
2
评论
分类问题为什么要用交叉熵

1. 信息熵信息熵就是信息的不确定程度，信息熵越小，信息越确定信息熵=∑事件x发生的概率∗验证事件x需要的信息量信息熵=\sum 事件x发生的概率*验证事件x需要的信息量信息熵=∑事件x发生的概率∗验证事件x需要的信息量事件发生的概率越低，需要越多的信息去验证，所以验证真假需要的信息量和事件发生的概率成反比，假设信息量为I(x)I(x)I(x)I(x)=−log p(x)I(x) = -log\, p(x)I(x)=−logp(x)其中负号是用来保证信息量是正数或者零，p(x)p(x)p(x)是事
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。