【机器学习】【概率论】【损失熵】【KL散度】信息量、香农熵和KL散度的计算

生菜模拟器

于 2024-01-31 19:51:00 发布

阅读量1.2k

点赞数 18

分类专栏：深度学习计算基础文章标签：机器学习概率论人工智能

本文链接：https://blog.csdn.net/kiong_/article/details/135961052

版权

深度学习计算基础专栏收录该内容

5 篇文章 1 订阅

订阅专栏

本文介绍了信息论中的关键概念，如信息量、香农熵、交叉熵以及KL散度，它们在衡量事件的信息量、不确定性、概率分布差异等方面的应用。通过实例展示了这些概念如何计算和在模型训练中的作用。

摘要由CSDN通过智能技术生成

1、信息量（Amount of Information）

对于一个事件：

小概率 --> 大信息量
大概率 --> 小信息量
独立事件的信息量可以相加
$I(x)=log_2(\frac{1}{p(x)})=-log_2(p(x))$
E.g.:
一枚均匀的硬币:
$p (h) = 0.5$ $I_p(h)=log_2(\frac{1}{0.5})=1$
$p (t) = 0.5$ $I_p(t)=log_2(\frac{1}{0.5})=1$
一枚不均匀的硬币:
$q (h) = 0.2$ $I_q(h)=log_2(\frac{1}{0.2})=2.32$
$q (t) = 0.8$ $I_q(t)=log_2(\frac{1}{0.8})=0.32$

2、香农熵（Shannon Entropy）

熵（entropy）: 概率分布的预期信息量。它也是不确定性的度量。

假设离散分布，比如伯努利（Bernoulli）分布
连续分布时使用整体
$H(p)=\sum p_iI^p_i=\sum p_ilog_2(\frac{1}{p_i})=-\sum p_ilog_2(p_i)$
example: 硬币概率： $p (h) = 0.5$ , $p (t) = 0.5$
$H(p)=p(h)\times log_2(\frac{1}{p(h)})+p(t)\times log_2(\frac{1}{p(t)})=0.5\times 1+0.5\times 1=1$

example: 硬币概率： $p (h) = 0.2$ , $p (t) = 0.8$
$H(p)=p(h)\times log_2(\frac{1}{p(h)})+p(t)\times log_2(\frac{1}{p(t)})=0.2\times 2.32+0.8\times 0.32=0.72$

3、交叉熵（Cross Entropy）

一枚硬币的ground truth概率： $p (h) = 0.5$ , $p (t) = 0.5$

估计（观察到的）概率概率： $q (h) = 0.2$ , $q (t) = 0.8$

给定估计概率分布，估计真值概率分布的预期信息量:

$H(p,q)=\sum p_iI^q_i=\sum p_ilog_2(\frac{1}{q_i})=-\sum p_i log_2(q_i)$

期望值来源于真值概率分布，因为数据始终根据真值概率分布显示
信息量使用估计概率分布，因为信息量是我们估计出来的

$q (h) = 0.2$ $q (t) = 0.8$
$p(h)\times log_2(\frac{1}{q(h)})+p(t)\times log_2(\frac{1}{q(t)})=0.5\times 2.32+0.5\times 0.32=1.32$

$q (h) = 0.4$ $q (t) = 0.6$
$p(h)\times log_2(\frac{1}{q(h)})+p(t)\times log_2(\frac{1}{q(t)})=0.5\times 1.32+0.5\times 0.74=1.03$

4、KL散度（Kullback-Leibler Divergence, Relative Entropy）

KL散度是用来衡量两种分布之间的差异的方法

4.1 量化视角看待熵或交叉熵之间差异性

$\begin{aligned}D(p\Vert q)=H(p,q)-H(p)&=\sum p_iI^q_i-\sum p_iI^p_i\\ &=\sum p_i log_2(\frac{1}{q_i})-\sum p_i log_2(\frac{1}{p_i})\\ &=\sum p_ilog_2(\frac{p_i}{q_i}) \end{aligned}$

$D(p\Vert q)\ge 0$ Gibbs inequality 当且仅当两个分部一样时为0
$D(p\Vert q)\ne D(q\Vert p)$ 不是距离指标

最小化 KL 散度有时等同于最小化交叉熵

$q_\theta$ 是预测的概率分布，p是我们想要的分布。对 $\theta$ 求梯度， $\nabla_\theta H(p)$ 是常数，求地梯度为0。
$\nabla_\theta D(p\Vert q_\theta)=\nabla_\theta H(p,q_\theta)-\nabla_\theta H(p)=\nabla_\theta H(p,q_\theta)$

4.2 另一种视角看待KL散度：

两种序列的分布需要很相近：
硬币的Ground Truth：

$p (h) = 0.5$
$p (t) = 0.5$ $
硬币的观察（估计）结果：
$q (h) = 0.2$
$q (t) = 0.8$
现在抛N次， $N_h$ 次head朝上， $N_t$ 次tail朝上，形成的序列称为seq。
当N足够大时， $\frac{N_h}{N}$ 趋近于 $p (h)$ ， $\frac{N_t}{N}$ 趋近于 $p (t)$

$\begin{aligned}&log((\frac{P(seq\vert p)}{P(seq\vert q)})^{\frac{1}{N}})=\frac{1}{N}log(\frac{p(h)^{N_h}p(t)^{N_t}}{q(h)^{N_h}q(t)^{N_t}})\\ &=\frac{N_h}{N}log(p(h))+\frac{N_t}{N}log(p(t))-\frac{N_h}{N}log(q(h))-\frac{N_t}{N}log(q(t))\\ &=p(h)log(p(h))+p(t)log(p(t))-p(h)log(q(h))-p(t)log(q(t))\\ &=p(h)log(\frac{p(h)}{q(h)})+p(t)log(\frac{p(t)}{q(t)}) \end{aligned}$

$D(p\Vert q)=\sum p_i log(\frac{p_i}{q_i})=log(\frac{P(sequence\space of \space distribution \space p \vert distribution \space p)}{P(sequence\space of \space distribution \space p \vert distribution \space q)})$