正向跟反向KL距离到底有什么区别?

如果我们要用一个分布q去近似一个分布p,我们一般的做法都是去优化一个KL距离使得他最小,但是KL距离是一个不对称的距离,那么我们优化 KL(q||p) K L ( q | | p ) KL(p||q) K L ( p | | q ) 的区别在哪里?

首先考虑第一种KL距离 KL(p||q) K L ( p | | q ) ,也被称为M-projection 或 moment projection,定义如下:

KL(p||q)=xp(x)lnp(x)q(x) K L ( p | | q ) = ∑ x p ( x ) ln ⁡ p ( x ) q ( x )

在这个距离里面,我们发现只有当 p(x)=0 p ( x ) = 0 的时候, q(x) q ( x ) 才能等于0,否则他们之间的距离就会无穷大,于是为了近似p,q会尽可能保持大于0,因为他能够等于0的地方太少了。于是在这种情况下q就会高估p的值域。

对于另外一个距离 KL(q||p) K L ( q | | p ) ,又称为I-projection 或 information projection.

KL(q||p)=xq(x)lnq(x)p(x) K L ( q | | p ) = ∑ x q ( x ) ln ⁡ q ( x ) p ( x )

在这个距离里面,我们发现当 p(x)=0 p ( x ) = 0 的时候 ,我们必须要保证 q(x)=0 q ( x ) = 0 ,否则这个距离就会变成无穷大,那我们的q就无法近似p了。所以,q很可能为了近似p,而避开或被p(x)=0的点截断。这种特性会导致q会低估p的值域。

这里写图片描述

图也正好表达了这种关系, KL(p||q) K L ( p | | q ) 会高估p的值域尽可能保持大于0,而 KL(q||p) K L ( q | | p ) 会低估p的值域,被p的0点截断。

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值