KL散度

最新推荐文章于 2024-04-15 10:48:51 发布

忘情摆渡

最新推荐文章于 2024-04-15 10:48:51 发布

阅读量1.3k

点赞数 1

分类专栏： Dr.Sure 文章标签： KL散度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangqingbaidu/article/details/79251693

版权

Dr.Sure 专栏收录该内容

13 篇文章 3 订阅

订阅专栏

Attention!

我的Dr.Sure项目正式上线了，主旨在分享学习Tensorflow以及DeepLearning中的一些想法。期间随时更新我的论文心得以及想法。

Github地址：https://github.com/wangqingbaidu/Dr.Sure

CSDN地址：http://blog.csdn.net/wangqingbaidu

个人博客地址：http://www.wangqingbaidu.cn/

KL散度

相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence，简称KLD),信息散度(information divergence),信息增益(information gain)。

KL散度是两个概率分布P和Q差别的非对称性的度量。

KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。

熵的定义：

H (x) = \sum x \in X P (x) l o g (1 P ( x ))

$H(x)=\sum_{x \in X}P(x)log(\frac{1}{P(x)})$

KL散度用来衡量两个分布之间的距离：

D K L (Q | P) = \sum x \in X Q (x) l o g (1 P ( x )) - \sum x \in X Q (x) l o g (1 Q ( x ))

$D_{KL}(Q|P)=\sum_{x\in X}Q(x)log(\frac{1}{P(x)})-\sum_{x\in X}Q(x)log(\frac{1}{Q(x)})$

性质

不对称性，KL散度可以看成是一种距离度量的方式，所以她并不具备对称性，即D{Q|P}≠D{P|Q}。
非负性。即KL散度的值一定是非负的。

证明一：

利用对数和不等式或者延森不等式

$D (Q | P) = \sum x \in X Q (x) l o g (1 P ( x )) - \sum x \in X Q (x) l o g (1 Q ( x )) = - \sum x \in X Q (x) l o g (P ( x ) Q ( x ))$ $D(Q|P)=\sum_{x\in X}Q(x)log(\frac{1}{P(x)})-\sum_{x\in X}Q(x)log(\frac{1}{Q(x)})=-\sum_{x\in X}Q(x)log(\frac{P(x)}{Q(x)})$

$D (Q | P) = - E (l o g P ( x ) Q ( x )) \geq - l o g E (P ( x ) Q ( x )) = - l o g \sum x \in X Q ( x ) P ( x ) Q ( x )$ $D(Q|P)=-E(log\frac{P(x)}{Q(x)}) \geq -logE(\frac{P(x)}{Q(x)})=-log\sum_{x \in X}\frac{Q(x)P(x)}{Q(x)}$

由于

$\sum x \in X P (x) = 1$ $\sum_{x \in X}P(x)=1$

所以

$D (Q | P) \geq 0$ $D(Q|P) \geq 0$

证明二：

已知

$l n (x) \leq x - 1 i f x \leq 1$ $ln(x) \leq x - 1 \quad if \quad x \leq 1$

$D (Q | P) = - \sum x \in X Q (x) l o g (P ( x ) Q ( x )) \geq - \sum x \in X Q (x) (P ( x ) Q ( x ) - 1) = 0$ $D(Q|P)=-\sum_{x\in X}Q(x)log(\frac{P(x)}{Q(x)}) \geq -\sum_{x\in X}Q(x)(\frac{P(x)}{Q(x)} - 1)=0$
tips: 注意负号。

应用

神经网络中，存在多个并行的网络，而最后又希望并行网络输出的结果再一个相同或者相近的分布事，使用KL散度作为一个监督信息。
不同的信息源在映射到一个相同的语义空间的时候，可以引入KL散度，用来度量这两个映射的空间处于一个相同的分布。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
KL散度

Attention!我的Dr.Sure项目正式上线了，主旨在分享学习Tensorflow以及DeepLearning中的一些想法。期间随时更新我的论文心得以及想法。Github地址：https://github.com/wangqingbaidu/Dr.SureCSDN地址：http://blog.csdn.net/wangqingbaidu个人博客地址：http://www.wa...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。