什么是交叉熵?

一、信息量

信息量来衡量一个事件的不确定性,一个事件发生的概率越大,其携带的信息量就越小。

X X X是一个离散型随机变量,其取值为集合 X = x 0 , x 1 , … , x n X=x_0,x_1,…,x_n X=x0,x1,,xn ,则其概率分布函数为 p ( x ) = P r ( X = x ) , x ∈ X p(x)=Pr(X=x),x∈X p(x)=Pr(X=x),xX,则定义事件 X = x 0 X=x_0 X=x0信息量为:
I ( x 0 ) = − log ( p ( x 0 ) ) I(x_0)=−\text{log}(p(x_0)) I(x0)=log(p(x0))
p ( x 0 ) = 1 p(x_0)=1 p(x0)=1时,该事件必定发生,其信息量为0.

二、熵

熵用来衡量一个系统的混乱程度,代表系统中信息量的总和;熵值越大,系统不确定性就越大。

熵的计算公式:
H ( x ) = − ∑ i = 1 n p ( x i ) log ( p ( x i ) ) H(x)=−\sum^{n}_{i=1}p(x_i)\text{log}(p(x_i)) H(x)=i=1np(xi)log(p(xi))
可以看出,熵是信息量的期望值。

三、相对熵 Relative entropy

相对熵也称为KL散度,表示同一个随机变量的两个不同分布间的距离。

p ( x ) , q ( x ) p(x),q(x) p(x),q(x) 分别是 离散随机变量 X X X的两个概率分布,则 p p p q q q相对熵是:
D K L ( p ∥ q ) = ∑ i p ( x i ) l o g ( p ( x i ) q ( x i ) ) D_{KL}(p \parallel q)=\sum_{i}p(x_i)log(\frac{p(x_i)}{q(x_i)}) DKL(pq)=ip(xi)log(q(xi)p(xi))
注意:相对熵 ≥ 0 \ge0 0

四、交叉熵 Cross Entropy

p ( x ) , q ( x ) p(x),q(x) p(x),q(x) 分别是 离散随机变量 X X X的两个概率分布,其中 p ( x ) p(x) p(x) 是目标分布, p p p q q q交叉熵可以看做是,使用分布 q ( x ) q(x) q(x) 表示目标分布 p ( x ) p(x) p(x) 的困难程度:
H ( p , q ) = ∑ i p ( x i ) log ⁡ 1 log ⁡ q ( x i ) = − ∑ i p ( x i ) log ⁡ q ( x i ) H(p, q)=\sum_{i} p\left(x_{i}\right) \log \frac{1}{\log q\left(x_{i}\right)}=-\sum_{i} p\left(x_{i}\right) \log q\left(x_{i}\right) H(p,q)=ip(xi)loglogq(xi)1=ip(xi)logq(xi)
显然有,
D K L ( p , q ) = H ( p , q ) − H ( p ) D_{K L}(p, q)=H(p, q)-H(p) DKL(p,q)=H(p,q)H(p)
在机器学习中,目标的分布 p ( x ) p(x) p(x) 通常是固定的,我们需要让训练得到的分布 q ( x ) q(x) q(x) 尽可能接近 p ( x ) p(x) p(x),这时候就可以最小化相对熵 D K L ( p ∥ q ) D_{KL}(p\parallel q) DKL(pq),等价于最小化交叉熵 H ( p , q ) H(p,q) H(p,q)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值