分类问题为什么要用交叉熵

一提到分类,大家想到的损失函数就是交叉熵,但是有没有想过为什么分类问题要用交叉熵损失,为什么不用均方误差损失呢?本文将详细介绍交叉熵的由来,并分析为什么不使用均方误差。

🤗欢迎关注公众号 funNLPer🤗

1. 信息熵

信息熵就是信息的不确定程度,信息熵越小,信息越确定
信息熵 = ∑ 事件 x 发生的概率 ∗ 验证事件 x 需要的信息量 信息熵=\sum 事件x发生的概率*验证事件x需要的信息量 信息熵=事件x发生的概率验证事件x需要的信息量

事件发生的概率越低,需要越多的信息去验证,所以验证真假需要的信息量和事件发生的概率成反比,假设信息量为 I ( x ) I(x) I(x)
I ( x ) = − l o g   p ( x ) I(x) = -log\, p(x) I(x)=logp(x)

其中负号是用来保证信息量是正数或者零, p ( x ) p(x) p(x)是事件 x x x发生的概率, I ( x ) I(x) I(x) 也被称为随机变量 $x $的自信息 (self-information),描述的是随机变量的某个事件发生所带来的信息量

信息熵即所有信息量的期望
H ( X ) = − ∑ x p ( x ) log ⁡ ( p ( x ) ) = − ∑ i = 1 n p ( x i ) log ⁡ ( p ( x i ) ) H(X)=-\sum_{x} p(x) \log (p(x))=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right) H(X)=xp(x)log(p(x))=i=1np(xi)log(p(xi))

其中 n n n 为事件的所有可能性

2. 相对熵(KL散度)

相对熵又称KL散度,如果对于同一个随机变量 x x x有两个单独的概率分布 p ( x ) p(x) p(x) q ( x ) q(x) q(x),可以使用相对熵来衡量这两个分布的差异

D K L ( p ∥ q ) = ∑ i = 1 n p ( x i ) log ⁡ ( p ( x i ) q ( x i ) ) D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right) DKL(pq)=i=1np(xi)log

  • 12
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值