机器学习面试必知:KL散度

39 篇文章 3 订阅
23 篇文章 1 订阅

考虑某个未知的分布 p ( x ) p(x) p(x),假定我们已经使用了一个近似的分布 q ( x ) q(x) q(x)对它进行了建模。如果我们使用 q ( x ) q(x) q(x)来建立一个编码体系,用来把x的值传给接受者,那么由于我们使用了 q ( x ) q(x) q(x)而不是真正的 p ( x ) p(x) p(x),因此在具体化x的值时,我们需要一些附加信息。我们需要的平均的附加信息量为 K L ( p ∣ ∣ q ) = − ∫ p ( x ) l n q ( x ) d x − ( − ∫ p ( x ) l n p ( x ) d x ) KL(p||q)=-\int p(x)\mathrm{ln} q(x)dx-(-\int p(x)\mathrm{ln}p(x)dx) KL(pq)=p(x)lnq(x)dx(p(x)lnp(x)dx) = − ∫ p ( x ) l n q ( x ) p ( x ) d x =-\int p(x)\mathrm{ln} \frac{q(x)}{p(x)}dx =p(x)lnp(x)q(x)dx这被称为分布 p ( x ) p(x) p(x) q ( x ) q(x) q(x)之间的相对熵或者KL散度。
现在考虑由 p ( x , y ) p(x,y) p(x,y)给出的两个变量x和y组成的数据集。如果变量不是独立的,我们可以通过考察联合概率分布与边缘概率分布乘积之间的KL散度来判断它们是否接近于相互独立。 I [ x , y ] = K L ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) ) I[x,y]=KL(p(x,y)||p(x)p(y)) I[x,y]=KL(p(x,y)p(x)p(y)) = − ∫ ∫ p ( x , y ) l n p ( x ) p ( y ) p ( x , y ) d x d y =-\int \int p(x,y)\mathrm{ln}\frac{p(x)p(y)}{p(x,y)}dxdy =p(x,y)lnp(x,y)p(x)p(y)dxdy这就被称为x和y之间的互信息。
使用概率的加和规则和乘积规则,我们可以看到互信息与条件熵之间的关系为 I [ x , y ] = H [ x ] − H [ x ∣ y ] = H [ y ] − H [ y ∣ x ] I[x,y]=H[x]-H[x|y]=H[y]-H[y|x] I[x,y]=H[x]H[xy]=H[y]H[yx]因此我们可以把互信息看成由于知道y值而造成的x的不确定性的减少。从贝叶斯的观点来看,我们可以把 p ( x ) p(x) p(x)看成x的先验概率分布,把 p ( x ∣ y ) p(x|y) p(xy)看成我们观察到新数据y之后的后验概率分布。因此互信息表示一个新的预测y造成的x的不确定性的减少。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值