KL距离

最新推荐文章于 2022-04-23 16:33:57 发布

QQ276592716

最新推荐文章于 2022-04-23 16:33:57 发布

阅读量803

点赞数

分类专栏：算法/数据结构~

算法/数据结构~ 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

KL距离，是Kullback-Leibler差异（Kullback- Leibler Divergence）的简称，也叫做相对熵（Relative Entropy）。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是：在相同事件空间里，概率分布P(x)的事件空间，若用概率分布 Q（x）编码时，平均每个基本事件（符号）编码长度增加了多少比特。我们用D（P||Q）表示KL距离，计算公式如下：

KL距离 - Legend - yinwenpeng1987的博客

当两个概率分布完全相同时，即P(x)=Q(X)，其相对熵为0 。我们知道，概率分布P(X)的信息熵为：

KL距离 - Legend - yinwenpeng1987的博客

其表示，概率分布P(x)编码时，平均每个基本事件（符号）至少需要多少比特编码。通过信息熵的学习，我们知道不存在其他比按照本身概率分布更好的编码方式了，所以D(P||Q）始终大于等于0的。虽然KL被称为距离，但是其不满足距离定义的三个条件：1）非负性；2）对称性（不满足）；3）三角不等式（不满足）。

我们以一个例子来说明，KL距离的含义。

假如一个字符发射器，随机发出0和1两种字符，真实发出概率分布为A，但实际不知道A的具体分布。现在通过观察，得到概率分布B与C。各个分布的具体情况如下：

A(0)=1/2，A(1)=1/2

B(0)=1/4，B(1)=3/4

C(0)=1/8，C(1)=7/8

那么，我们可以计算出得到如下：

KL距离 - Legend - yinwenpeng1987的博客

KL距离 - Legend - yinwenpeng1987的博客

也即，这两种方式来进行编码，其结果都使得平均编码长度增加了。我们也可以看出，按照概率分布B进行编码，要比按照C进行编码，平均每个符号增加的比特数目少。从分布上也可以看出，实际上B要比C更接近实际分布。

如果实际分布为C，而我们用A分布来编码这个字符发射器的每个字符，那么同样我们可以得到如下：

KL距离 - Legend - yinwenpeng1987的博客

再次，我们进一步验证了这样的结论：对一个信息源编码，按照其本身的概率分布进行编码，每个字符的平均比特数目最少。这就是信息熵的概念，衡量了信息源本身的不确定性。另外，可以看出KL距离不满足对称性，即D(P||Q)不一定等于D(Q||P)。

当然，我们也可以验证KL距离不满足三角不等式条件。

上面的三个概率分布，D(B||C)=1/4log2+3/4log(6/7)。可以得到：D(A||C) - (D(A||B)+ D(B||C)) =1/2log2+1/4log(7/6)>0，这里验证了KL距离不满足三角不等式条件。所以KL距离，并不是一种距离度量方式，虽然它有这样的学名。

其实，KL距离在信息检索领域，以及统计自然语言方面有重要的运用。我们将会把它留在以后的章节中介绍。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

QQ276592716 CSDN认证博客专家 CSDN认证企业博客

码龄16年

95: 原创

17万+: 周排名

209万+: 总排名

49万+: 访问

: 等级

6205: 积分

93: 粉丝

54: 获赞

85: 评论

124: 收藏

私信

关注

热门文章

分类专栏

C/win32API 20篇
C++ 90篇
VC/MFC相关 19篇
操作系统 21篇
汇编 16篇
心得~ 5篇
设计模式 23篇
协议相关 3篇
算法/数据结构~ 35篇
网络编程 22篇
linux~ 30篇
源码剖析 9篇
架构~ 4篇
COM 2篇
python 4篇
游戏开发 11篇
数据库 4篇
面试笔试题 4篇
objc 1篇
插件
lua 6篇

最新评论

王爽汇编第二版检测点15.1（整理）
噢不不不: 你好, 很抱歉, 由于时间久远, 你问的问题太细了, 有些细节我已经忘了, 无法解答.对了我也不是原作者
王爽汇编第二版检测点15.1（整理）
素眼冰陶: 作者你好，我想问一下，就是新的int9代码中，先把用到的寄存器入栈，之后就in al，60h，从60端口把扫描码读入al中，但是，我在想，原来的int9中断程序中有这一个步骤吗？有的话，那等会调用原来的int9中断程序，不是又读取一次60号端口的扫描码吗？
王爽汇编第二版检测点15.1（整理）
素眼冰陶: 11年的回答，豁然开朗
int GetMonth( ) const throw( );后面的throw( )什么意思？
金士顿: 解释得简单明了
128位数据相加（整理）
门都没入小菜鸡: 前面push和后面pop是干嘛的呀

大家在看

WordPress插件Elementor页面生成器安装 134

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。