交叉熵 & K-L散度

最新推荐文章于 2023-02-18 18:12:08 发布

Thomas zcy

最新推荐文章于 2023-02-18 18:12:08 发布

阅读量387

点赞数

分类专栏：学习笔记文章标签：人工智能机器学习算法

本文链接：https://blog.csdn.net/qq_39588577/article/details/109412821

版权

学习笔记专栏收录该内容

4 篇文章 2 订阅

订阅专栏

交叉熵 & K-L散度

交叉熵

信息论主要研究如何量化数据中的信息。最重要的信息度量单位是熵Entropy，一般用 $H$ 表示。分布的熵的公式如下:
$H=-\sum_{i=1}^{N} p\left(x_{i}\right) \cdot \log p\left(x_{i}\right)$
Example:
Support there are there categories, the correct answer for an example is (1, 0, 0);

The predicted answer of model A after softmax regression is (0.5, 0.2, 0.3);
The predicted answer of model B after softmax regression is (0.7, 0.1, 0.2);
The predicted answer of model C after softmax regression is(1.0, 0.0, 0.0);

𝑯((1, 0, 0), (0.5, 0.2, 0.3)) = -log 0.5 ≈ 0.301
𝑯((1, 0, 0), (0.7, 0.1, 0.2)) = -log 0.7 ≈ 0.155
𝑯((1, 0, 0), (1.0, 0.0, 0.0)) = -log 1.0 ≈ 0.0
So define cross entropy loss function:
$\begin{aligned} &\text { Loss }=-\sum_{i=1}^{n} y_{i} \log y_{i}^{\prime}\\ \end{aligned}$
其中 $\quad y_{i}$ 为标签值, $\quad y_{i}^{\prime}$ 为预测值
The cross entropy represents uncertainty. =>熵可以表示信息内部的混沌程度。

1948年，香农引入信息熵，将其定义为离散随机事件的出现概率。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以说，信息熵可以被认为是系统有序化程度的一个度量。

K-L散度=>相对熵

只需要稍加修改熵 $H$ 的计算公式就能得到K-L散度的计算公式。设 $p$ 为观察得到的概率分布， $q$ 为另一分布来近似 $p$ ，则 $p$ 、 $q$ 的K-L散度为：
$D_{K L}(p \| q)=\sum_{i=1}^{N} p\left(x_{i}\right) \cdot\left(\log p\left(x_{i}\right)-\log q\left(x_{i}\right)\right)$
根据上面的公式，K-L散度其实是数据的原始分布 $p$ 和近似分布 $q$ 之间的对数差值的期望。如果继续用2为底的对数计算，则K-L散度值表示信息损失的二进制位数。下面公式以期望表达K-L散度:
$D_{K L}(p \| q)=E[\log p(x)-\log q(x)]$
其中 $E_{q}$ 表示从 $q$ 采样，计算log $q-\log p$ 的期望 ( expectation ) $E$ 。当变分分布 ( variational distribution ) $q$ 等于真实分布 $p$ 时，KL散度等于0。如果用参数 $\theta$ 来表示分布 $q_{\theta}$ -例如高斯分布 $N\left(\mu, \sigma^{2}\right)$ 用参数均值 $\mu$ 和方差 $\sigma^{2}$ 来表示一那么变分推断就是求参数 $\theta$ 的值或范围，使 $q_{\theta}$ 近似 $p$ 。这也是变分推断被“变分"推断的原因。

一般，K-L散度以下面的书写方式更常见：
$D_{K L}(p \| q)=\sum_{i=1}^{N} p\left(x_{i}\right) \cdot \log \frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}$
K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。

参考文献：如何理解K-L散度（相对熵）
参考文献：变分推断(一)

Thomas zcy

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
交叉熵 & K-L散度

交叉熵 & K-L散度交叉熵信息论主要研究如何量化数据中的信息。最重要的信息度量单位是熵Entropy，一般用HHH表示。分布的熵的公式如下:H=−∑i=1Np(xi)⋅log⁡p(xi)H=-\sum_{i=1}^{N} p\left(x_{i}\right) \cdot \log p\left(x_{i}\right)H=−i=1∑Np(xi)⋅logp(xi)example:????((1, 0, 0), (0.5, 0.2, 0.3)) = -log 0.5 ≈ 0.30
复制链接

扫一扫