一文读懂交叉熵(Cross-Entropy)和相对熵(Relative-Entropy)

本文详细介绍了交叉熵和相对熵的概念,从信息量和熵的基础出发,解析了交叉熵在机器学习中作为损失函数的作用,以及相对熵衡量概率分布差异的特性。通过实例解释了两者之间的关系,并探讨了它们在实际应用中的意义。
摘要由CSDN通过智能技术生成

  提到机器学习,就不得不提损失函数,提到损失函数,就不得不提交叉熵。
本文章将对这个概念进行详细的分析。

1、信息量

  信息量是对事件发生概率的度量,一个事件发生的概率越低,则这个事件包含的信息量越大,这跟我们直观上的认知也是吻合的,越稀奇新闻包含的信息量越大,因为这种新闻出现的概率低。

  举个例子,大家都知道猪会跑,但是猪会不会飞就不一定了,毕竟猪在风口上,也能飞上天(手动滑稽)。为了便于理解,我们分别用随机变量 X X X Y Y Y来表示猪会不会跑和会不会飞,下标 0 0 0 代表不会, 1 1 1 代表会,且认为 p ( x 1 ) = 0.9 p(x_1)=0.9 p(x1)=0.9 p ( y 1 ) = 0.4 p(y_1)=0.4 p(y1)=0.4,则:

  猪会跑: p ( x 1 ) = 0.9 p(x_1)=0.9 p(x1)=0.9,信息量 I ( x 1 ) = − l o g ( 0.9 ) = 0.15 I(x_1)=-log(0.9)=0.15 I(x1)=log(0.9)=0.15
  猪会飞: p ( y 1 ) = 0.4 p(y_1)=0.4 p(y1)=0.4,信息量 I ( y 1 ) = − l o g ( 0.4 ) = 1.32 I(y_1)=-log(0.4)=1.32 I(y1)=log(0.4)=1.32

  显然,猪会飞更稀奇,带给我们的信息量越大。

  对于随机变量 X X X,事件 X = x 0 X=x_0 X=x0 的信息量定义为:
I ( x 0 ) = l o g ( 1 p ( x 0 ) ) = − l o g ( p ( x 0 ) ) I(x_0)=log(\frac{1}{p(x_0)})=-log(p(x_0)) I(x0)=log(p(x0)1)=log(p(x0))
    其中p(x_0)为事件 X=x_0发生的概率。

2、熵

  熵是一种对不确定性的方法,对于存在不确定性的系统,熵越大表示该系统的不确定性越大,熵为0表示没有任何不确定性

  同样以猪会不会跑,会不会飞为例,刚出生的小猪,以后会不会跑是存在一定不确定性(万一从小自闭,就不会跑了),如何度量这个不确定度求期望,我们对所有可能结果带来的信息量求期望,其结果就能够衡量出此问题的不确定度了:
H ( X ) = − ( p ( x 0 ) l o g ( p ( x 0 ) ) + ( p ( x 1 ) ) l o g ( p ( x 1 ) ) ) = − ( 0.1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值