【原理】如何形象地理解交叉熵-信息熵

本文来自《老饼讲解-BP神经网络》https://www.bbbdata.com/

交叉熵、信息熵概念基本贯穿了机器学习、深度学习中的类别识别模型,例如KL分布、softmax等等都是基于交叉熵与信息熵的理论进行定义的,本文不妨形象梳理一下什么是交叉熵、信息熵,以此一通百通。

一、信息量

1.1.什么是信息量

信息量是对信息的一种量化指标,用于衡量信息的大小,最常用的是香农信息量,香农信息量的定义与计算公式如下:
h ( x ) = − ln ⁡ ( p ( x ) ) h(x)=−\ln(p(x)) h(x)=ln(p(x))

其中,p是事件x发生的概率,h则为事件x所包含的香农信息量。
从式中可以看到,事件的香农信息量与事件的概率成反比,
香农信息熵
即一件事发生的概率越小,则包含的信息量越大

二、什么是信息熵

2.1.什么是信息熵

信息熵通俗来说就是信息量的期望,香农信息熵则是香农信息量的期望
如果已知 x 有 n 种取值,且知道每种取值的概率,则 x 的香农信息熵如下:
H ( x ) = − ∑ i n p ( x i ) ln ⁡ p ( x i ) \displaystyle H(x) = -\sum\limits_{i}^{n}p(x_i)\ln p(x_i) H(x)=inp(xi)lnp(xi)

2.2. 信息熵的意义

为什么要单独把"信息量的期望"单独拎出来命名为"信息熵"呢?因为信息熵是一个常用的概念,例如用信息熵来评估事件的混沌程度,当我们对一个事件越不确定时,即越混沌时,在得知该事件的确切值时期望获得的信息量就越多,即事件越混沌,事件的信息熵就越大:
信息熵用于评估事件的混沌性
因此,一般可用信息熵来评估一个事件的混沌程度,或者我们对事件的掌握程度

三、交叉熵

3.1.什么是交叉熵

如果已知 X 有 n 种取值,我们认为第 i 种取值的概率为 q ( x i ) q(x_i) q(xi),事实上第i种取值的概率为 p ( x i ) p(x_i) p(xi),则定义在知道X的真实取值时所获得的信息量期望为交叉熵
什么是交叉熵
香农交叉信息熵的公式如下:
C ( p , q ) = − ∑ i n p ( x i ) ln ⁡ q ( x i ) \small \displaystyle C(p,q) = -\sum\limits_{i}^{n}p(x_i)\ln q(x_i) C(p,q)=inp(xi)lnq(xi)

3.2.如何理解交叉熵的意义

交叉熵经常用于评估概率模型的预测效果的准确程度,交叉熵越小,说明模型越准确
交叉熵的意义
为什么交叉熵越小,模型就越准确呢?
因为交叉熵就是知道X的真实取值时所获得的信息量期望,交叉熵越小,说明信息量越小。
模型的交叉熵越小(知道真实标签时的信息量小),那说明基于模型我们已经基本掌握了样本的标签类别信息了。

相关链接:

《老饼讲解-机器学习》:老饼讲解-机器学习教程-通俗易懂
《老饼讲解-神经网络》:老饼讲解-matlab神经网络-通俗易懂
《老饼讲解-神经网络》:老饼讲解-深度学习-通俗易懂

  • 18
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老饼讲解-BP神经网络

请老饼喝杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值