机器学习：Kullback-Leibler Divergence （KL 散度）

最新推荐文章于 2024-01-25 22:16:35 发布

Matrix_11

最新推荐文章于 2024-01-25 22:16:35 发布

阅读量4.2w

点赞数 92

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/matrix_space/article/details/80550561

版权

机器学习专栏收录该内容

113 篇文章 141 订阅

订阅专栏

今天，我们介绍机器学习里非常常用的一个概念，KL 散度，这是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样本，根据数据的部分样本，我们会对数据的整体做一个近似的估计，而数据整体本身有一个真实的分布（我们可能永远无法知道），那么近似估计的概率分布和数据整体真实的概率分布的相似度，或者说差异程度，可以用 KL 散度来表示。

KL 散度，最早是从信息论里演化而来的，所以在介绍 KL 散度之前，我们要先介绍一下信息熵。信息熵的定义如下：

$\sum_{i=1}^{N} p(x_i) \log p(x_i)$

$p(x_i)$ 表示事件 $x_i$ 发生的概率，信息熵其实反映的就是要表示一个概率分布需要的平均信息量。

在信息熵的基础上，我们定义 KL 散度为：

$D_{KL} (p || q) = \sum_{i=1}^{N} p(x_i) \cdot ( \log p(x_i) - \log(q(x_i))$

或者表示成下面这种形式：

$D_{KL} (p || q) = \sum_{i=1}^{N} p(x_i) \cdot \log \frac { p(x_i) }{ q(x_i)}$

$D_{KL} (p || q)$ 表示的就是概率 $q$ 与概率 $p$ 之间的差异，很显然，散度越小，说明概率 $q$ 与概率 $p$ 之间越接近，那么估计的概率分布于真实的概率分布也就越接近。

KL 散度可以帮助我们选择最优的参数，比如 $p (x)$ 是我们需要估计的一个未知的分布，我们无法直接得知 $p (x)$ 的分布，不过我们可以建立一个分布 $\theta)$ 去估计 $p (x)$ ，为了确定参数 $\theta$ ，虽然我们无法得知 $p (x)$ 的真实分布，但可以利用采样的方法，从 $p (x)$ 中采样 $N$ 个样本，构建如下的目标函数：

$D_{KL} (p || q) = \sum_{i=1}^{N} \{ \log p(x_i) - \log q(x_i | \theta ) \}$

因为我们要预估的是参数 $\theta$ ，上面的第一项 $log p(x_i)$ 与参数 $\theta$ 无关，所以我们要优化的其实是 $\log q(x_i | \theta )$ ，而这个就是我们熟悉的最大似然估计。

关注

92
点赞
踩
213

收藏

觉得还不错? 一键收藏
6
评论
机器学习：Kullback-Leibler Divergence （KL 散度）

今天，我们介绍机器学习里非常常用的一个概念，KL 散度，这是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样本，根据数据的部分样本，我们会对数据的整体做一个近似的估计，而数据整体本身有一个真实的分布（我们可能永远无法知道），那么近似估计的概率分布和数据整体真实的概率分布的相似度，或者...
复制链接

扫一扫

专栏目录

Matrix_11

CSDN认证博客专家 CSDN认证企业博客

码龄13年

268: 原创

1万+: 周排名

1221: 总排名

189万+: 访问

: 等级

1万+: 积分

2183: 粉丝

890: 获赞

357: 评论

2719: 收藏

私信

关注

热门文章

分类专栏

最新评论

论文阅读：Distortion-Free Wide-Angle Portraits on Camera Phones
weixin_47276231: 求代码谢谢
论文阅读：DisCO Portrait Distortion Correction with Perspective-Aware 3D GANs
weixin_47276231: 求完整代码
论文讲解：A Physics-based Noise Formation Model for Extreme Low-light Raw Denoising
2301_81267430: 请问这里unet扮演了一个什么角色，因为这里建立的模型中的未知量我们都可以通过标定得出。那这里深度学习的框架又有什么用呢。
论文阅读：Face Deblurring using Dual Camera Fusion on Mobile Phones
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Iterative Denoiser and Noise Estimator for Self-Supervised Image Denoising
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。