正向跟反向KL距离到底有什么区别？

最新推荐文章于 2023-06-18 16:19:44 发布

Jie Qiao

最新推荐文章于 2023-06-18 16:19:44 发布

阅读量2.5k

点赞数 4

分类专栏：机器学习文章标签： KL距离 KL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a358463121/article/details/79499801

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

如果我们要用一个分布q去近似一个分布p，我们一般的做法都是去优化一个KL距离使得他最小，但是KL距离是一个不对称的距离，那么我们优化 $KL(q||p)$ 跟 $KL(p||q)$ 的区别在哪里?

首先考虑第一种KL距离 $KL(p||q)$ ，也被称为M-projection 或 moment projection，定义如下：

K L (p | | q) = \sum x p (x) ln p ( x ) q ( x )

$KL(p||q)=\sum_xp(x)\ln\frac{p(x)}{q(x)}$
在这个距离里面，我们发现只有当

p(x)=0 p ( x ) = 0 $p(x)=0$ 的时候，

q(x) q ( x ) $q(x)$ 才能等于0，否则他们之间的距离就会无穷大，于是为了近似p，q会尽可能保持大于0，因为他能够等于0的地方太少了。于是在这种情况下q就会高估p的值域。

对于另外一个距离 $KL(q||p)$ ,又称为I-projection 或 information projection.

K L (q | | p) = \sum x q (x) ln q ( x ) p ( x )

$KL(q||p)=\sum_xq(x)\ln\frac{q(x)}{p(x)}$
在这个距离里面，我们发现当

p(x)=0 p ( x ) = 0 $p(x)=0$ 的时候，我们必须要保证

q(x)=0 q ( x ) = 0 $q(x)=0$ ，否则这个距离就会变成无穷大，那我们的q就无法近似p了。所以，q很可能为了近似p，而避开或被p(x)=0的点截断。这种特性会导致q会低估p的值域。

这里写图片描述

图也正好表达了这种关系， $KL(p||q)$ 会高估p的值域尽可能保持大于0，而 $KL(q||p)$ 会低估p的值域，被p的0点截断。

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。