什么是交叉熵？

九九喵99

于 2021-03-06 10:42:13 发布

阅读量1.3k

点赞数 1

文章标签：机器学习信息熵

本文链接：https://blog.csdn.net/qq_40963226/article/details/114434899

版权

一、信息量

信息量来衡量一个事件的不确定性，一个事件发生的概率越大，其携带的信息量就越小。

设 $X$ 是一个离散型随机变量，其取值为集合 $X=x_0,x_1,…,x_n$ ，则其概率分布函数为 $p (x) = P r (X = x), x \in X$ ，则定义事件 $X=x_0$ 的信息量为：
$I(x_0)=−\text{log}(p(x_0))$
当 $p(x_0)=1$ 时，该事件必定发生，其信息量为0.

二、熵

熵用来衡量一个系统的混乱程度，代表系统中信息量的总和；熵值越大，系统不确定性就越大。

熵的计算公式:
$H(x)=−\sum^{n}_{i=1}p(x_i)\text{log}(p(x_i))$
可以看出，熵是信息量的期望值。

三、相对熵 Relative entropy

相对熵也称为KL散度，表示同一个随机变量的两个不同分布间的距离。

设 $p (x), q (x)$ 分别是离散随机变量 $X$ 的两个概率分布，则 $p$ 对 $q$ 的相对熵是：
$D_{KL}(p \parallel q)=\sum_{i}p(x_i)log(\frac{p(x_i)}{q(x_i)})$
注意：相对熵 $\ge0$

四、交叉熵 Cross Entropy

设 $p (x), q (x)$ 分别是离散随机变量 $X$ 的两个概率分布，其中 $p (x)$ 是目标分布， $p$ 和 $q$ 的交叉熵可以看做是，使用分布 $q (x)$ 表示目标分布 $p (x)$ 的困难程度：
$q)=\sum_{i} p\left(x_{i}\right) \log \frac{1}{\log q\left(x_{i}\right)}=-\sum_{i} p\left(x_{i}\right) \log q\left(x_{i}\right)$
显然有，
$D_{K L}(p, q)=H(p, q)-H(p)$
在机器学习中，目标的分布 $p (x)$ 通常是固定的，我们需要让训练得到的分布 $q (x)$ 尽可能接近 $p (x)$ ，这时候就可以最小化相对熵 $D_{KL}(p\parallel q)$ ，等价于最小化交叉熵 $H (p, q)$ 。

九九喵99

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
什么是交叉熵？

一、信息量信息量来衡量一个事件的不确定性，一个事件发生的概率越大，其携带的信息量就越小。设XXX是一个离散型随机变量，其取值为集合X=x0,x1,…,xnX=x_0,x_1,…,x_nX=x0,x1,…,xn ，则其概率分布函数为p(x)=Pr(X=x),x∈Xp(x)=Pr(X=x),x∈Xp(x)=Pr(X=x),x∈X，则定义事件X=x0X=x_0X=x0 的信息量为：I(x0)=−log(p(x0))I(x_0)=−\text{log}(p(x_0))I(x0)=−log(p(x
复制链接

扫一扫