机器学习面试必知：KL散度

最新推荐文章于 2024-08-26 12:02:02 发布

Neekity

最新推荐文章于 2024-08-26 12:02:02 发布

阅读量898

点赞数 2

分类专栏：机器学习面试统计学习文章标签： KL散度相对熵互信息

本文链接：https://blog.csdn.net/neekity/article/details/88421117

版权

机器学习同时被 3 个专栏收录

39 篇文章 1 订阅

订阅专栏

面试

39 篇文章 3 订阅

订阅专栏

统计学习

23 篇文章 1 订阅

订阅专栏

考虑某个未知的分布 $p (x)$ ，假定我们已经使用了一个近似的分布 $q (x)$ 对它进行了建模。如果我们使用 $q (x)$ 来建立一个编码体系，用来把x的值传给接受者，那么由于我们使用了 $q (x)$ 而不是真正的 $p (x)$ ，因此在具体化x的值时，我们需要一些附加信息。我们需要的平均的附加信息量为 $KL(p||q)=-\int p(x)\mathrm{ln} q(x)dx-(-\int p(x)\mathrm{ln}p(x)dx)$ $=-\int p(x)\mathrm{ln} \frac{q(x)}{p(x)}dx$ 这被称为分布 $p (x)$ 和 $q (x)$ 之间的相对熵或者KL散度。
现在考虑由 $p (x, y)$ 给出的两个变量x和y组成的数据集。如果变量不是独立的，我们可以通过考察联合概率分布与边缘概率分布乘积之间的KL散度来判断它们是否接近于相互独立。 $I [x, y] = K L (p (x, y) ∣ ∣ p (x) p (y))$ $=-\int \int p(x,y)\mathrm{ln}\frac{p(x)p(y)}{p(x,y)}dxdy$ 这就被称为x和y之间的互信息。
使用概率的加和规则和乘积规则，我们可以看到互信息与条件熵之间的关系为 $I [x, y] = H [x] - H [x ∣ y] = H [y] - H [y ∣ x]$ 因此我们可以把互信息看成由于知道y值而造成的x的不确定性的减少。从贝叶斯的观点来看，我们可以把 $p (x)$ 看成x的先验概率分布，把 $p (x ∣ y)$ 看成我们观察到新数据y之后的后验概率分布。因此互信息表示一个新的预测y造成的x的不确定性的减少。