谈谈：熵、交叉熵、互信息、KL散度

最新推荐文章于 2024-03-05 20:48:18 发布

Matt_sh

最新推荐文章于 2024-03-05 20:48:18 发布

阅读量641

点赞数

分类专栏：机器学习\深度学习理论知识文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/Matt_sh/article/details/106560527

版权

机器学习\深度学习理论知识专栏收录该内容

9 篇文章 0 订阅

订阅专栏

主要以概念介绍以及理解为主

熵

又叫做自信息。描述一个随机变量的不确定性程度（离散的）
$\sum p(x)log_2p(x),其中，0log0 = 0$
熵越大，不确定性越大，得到正确估计的可能性就越小。所以，越不确定就需要用更大的信息量来确定其值。
对于未知分布，如果只掌握部分信息，即符合这部分信息的分布可能有多个，我们认为熵值最大的概率分布最真实的反映了这个事件的分布。
即：在已知部分知识的前提下，关于未知分布最合理的的推断，应该是所有符合已知信息中，最不确定（最大随机性）的推断（熵最大的那个）。
NLP中往往是选用熵最大的模型来推断某种语言现象的可能性。
$\hat p=\argmax_{p \in C} H(p)$
熵越大，越不确定，越小，越确定。

用法：

用于新词挖掘。
比如被子，与辈子。
两个词的左熵被子更大，辈子小很多。那么，可以认为被子可以独立成词，辈子不行。

联合熵

$\sum p(x,y)log_2p(x,y)$
描述一对随机变量平均所需要的信息量
条件熵
$H(Y|X)\\ = \sum_{x \in X} p(x)H(Y|X=x) \\ = \sum_{x \in X} p(x)[- \sum_{y \in Y} p(y|x)log_2p(y|x)]\\=- \sum_{x \in X}\sum_{y \in Y} p(x,y)log_2p(y|x)$
连锁规则：
$\sum p(x,y)log_2p(x,y)\\ =- \sum p(x,y)log_2[p(x)p(y|x)]\\=H(X) + H(Y|X)$

互信息

$H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)$
$I (X, Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X) = I (Y, X)$
互信息： $I (X, Y)$ 反映的是知道Y以后，X的不确定性的减少量。理解为：Y透露了多少X的信息。【若X,Y独立，则没减少】
互信息度量的是X,Y之间的统计相关性。
NLP中，可以度量主题类别与词汇之间的互信息大小进行特征词抽取。
互信息的应用：词汇聚类、分词、词义消歧、文本分类聚类等。

相对熵（KL散度）

衡量相同事件空间里两个概率分布相对差距的测度。

p(x)与q(x)的相对熵：
$\sum_xp(x)log\frac{p(x)}{q(x)} = E_p[log\frac{p(x)}{q(x)}]$
当 $p (x) = q (x)$ 相对熵为0，两个分布没差异
相对熵的角度看互信息：衡量联合分布与其独立性差距多大的测度
$I (X, Y) = D (p (x, y) ∣ ∣ p (x) p (y))$
注意KL散度不是对称的。
当两个分布相差比较大的时候，使用KL散度会存在一些问题。需要引入一些变体形式。
KL散度在生成模型中使用比较多。VAE之类的。
解读KL散度：从定义到优化方法
【GAN的优化】从KL和JS散度到fGAN
知乎KL散度相关总结

交叉熵

熵反应的是事情的不确定性程度。如果我们有越多的信息，那么对于这个事件熵就越小，对于试验结果就越不会意外。
交叉熵用于衡量估计模型与真实概率之间的差异情况。
对于随机变量 $X\sim p(x)$ ，我们用 $q (x)$ 近似估计 $p (x)$ 。 $X$ 与模型 $q (x)$ 的交叉熵如下

$D(p||q)\\ =- \sum_xp(x)log q(x)$

交叉熵是分类问题中十分常用的损失函数。无论是单标签分类还是多标签分类，基准的损失函数都是交叉熵。

那看到这里的疑问：
上述式子中，我应该是不知道 $p (x)$ 的真实概率分布，如果我知道的话，我何必用 $q (x)$ 来估计真实模型呢？

上述都是理想情况。实际情况中，我们有的是一堆样本 $D a t a$ ，理解成从X中抽样得到的。还有一个估计模型 $q(x,\theta)$ 。目标就是找到最优参数 $\hat \theta$ ，使得估计的分布于真实分布差距最小。
实际计算中，是根据大数定律以及相关定理的支撑下，用近似的计算方法。
通常来说，对于每个样本 $\sum ylog\hat y$