--来自百度百科
信息熵
,是随机变量或整个系统的不确定性。熵越大,随机变量或系统的不确定性就越大。
相对熵,用来衡量两个取值为正的函数或概率分布之间的差异。
交叉熵,用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。
相对熵=交叉熵-信息熵:
![](https://gss2.bdstatic.com/9fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D181/sign=f263a1203a7adab439d01f4bbad5b36b/21a4462309f790529258553600f3d7ca7bcbd576.jpg)
信息熵
通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之就大。
不确定性函数f是概率P的单调递降函数;两个独立符号所产生的不确定性应等于各自不确定性之和,即f(P
1,P
2)=f(P
1)+f(P
2),这称为可加性。同时满足这两个条件的函数f是对数函数,即
。
![](https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D154/sign=2ffd8750a7c27d1ea1263fc12fd4adaf/b219ebc4b74543a979e4cf381d178a82b8011442.jpg)
在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值:U
1…U
i…U
n,对应概率为:P
1…Pi…P
n,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logP
i的统计平均值(E),可称为信息熵,即
,式中对数一般取2为底,单位为比特。但是,也可以取其它对数底,采用其它相应的单位,它们间可用换底公式换算。
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D244/sign=49cc170a35d3d539c53d08c70e86e927/2e2eb9389b504fc2554487f1e6dde71190ef6d2e.jpg)
最简单的单符号信源仅取0和1两个元素,即二元信源,其概率为P和Q=1-P,该信源的熵即为如图1所示。
由图可见,离散信源的信息熵具有:①非负性,即收到一个信源符号所获得的信息量应为正值,H(U)≥0;②对称性,即对称于P=0.5(③确定性,H(1,0)=0,即P=0或P=1已是确定状态,所得信息量为零;④极值性,当P=0.5时,H(U)最大;而且H(U)是P的上凸函数。
对连续信源,仙农给出了形式上类似于离散信源的连续熵,
虽然连续熵H
C
(U)仍具有可加性,但不具有信息的非负性,已不同于离散信源。H
C
(U)不代表连续信源的信息量。连续信源取值无限,信息量是无限大,而H
C
(U)是一个有限的相对值,又称相对熵。但是,在取两熵的差值为互信息时,它仍具有非负性。这与力学中势能的定义相仿。
交叉熵
编辑
将交叉熵引入计算语言学消岐领域,采用语句的真实语义作为交叉熵的训练集的
先验信息,将机器翻译的语义作为测试集后验信息。计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除。实例表明,该方法简洁有效.易于计算机自适应实现。交叉熵不失为计算语言学消岐的一种较为有效的工具。
在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中,我们很难理解交叉熵的定义。下面举个例子来描述一下:
假设现在有一个样本集中两个概率分布p,q,其中p为真实分布,q为非真实分布。假如,按照真实分布p来衡量识别一个样本所需要的编码长度的期望为:
H(p)=
![](https://gss1.bdstatic.com/9vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D134/sign=f29c291e4136acaf5de092ff48d98d03/ca1349540923dd546f3dcd4fdb09b3de9c82484e.jpg)
但是,如果采用错误的分布q来表示来自真实分布p的平均编码长度,则应该是:
H(p,q)=
![](https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D133/sign=9170a8149b8fa0ec7bc7600e1596594a/37d3d539b6003af3c927b6473f2ac65c1038b67c.jpg)
此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下:
对于离散变量采用以下的方式计算:H(p,q)=
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D138/sign=8fca88ef104c510faac4e61958582528/30adcbef76094b36a4214dcaa9cc7cd98d109d61.jpg)
对于连续变量采用以下的方式计算:
![](https://gss0.bdstatic.com/-4o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D263/sign=3dda5d162b3fb80e08d166d105d12ffb/9d82d158ccbf6c81bc397dcfb63eb13533fa408e.jpg)
交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。
[1]
在特征工程中,可以用来衡量两个随机变量之间的相似度。
在语言模型中(NLP)中,由于真实的分布p是未知的,在语言模型中,模型是通过训练集得到的,交叉熵就是衡量这个模型在测试集上的正确率。
相对熵
编辑
相对熵(relative entropy)又称为KL散度(
Kullback–Leibler divergence,简称
KLD),信息散度(information divergence)。
设
和
是
取值的两个离散概率分布,则
对
的相对熵为:
![](https://gss0.bdstatic.com/-4o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D30/sign=ffab04579813b07eb9bd56080dd7c4ce/f9dcd100baa1cd1176d2f156b212c8fcc3ce2d5b.jpg)
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D32/sign=3542701a1b38534388cf81239213c8dd/c83d70cf3bc79f3df8b46746b1a1cd11728b296a.jpg)
![](https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=6db01d22084f78f0840b9ef1783154d0/359b033b5bb5c9ea83938095de39b6003af3b360.jpg)
![](https://gss1.bdstatic.com/9vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=86f3b96249a7d933bba8e071ad4b4135/f7246b600c33874462b8ac0a5a0fd9f9d72aa043.jpg)
![](https://gss1.bdstatic.com/-vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D15/sign=067e3147aa8b87d65442af1a0608b5df/caef76094b36acaf9bbf158a77d98d1001e99c6d.jpg)
![](https://gss0.bdstatic.com/-4o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D245/sign=f7acdb96fc03918fd3d13ace643c264b/023b5bb5c9ea15cea2586c7fbd003af33a87b216.jpg)
对于连续的随机变量,定义为:
![](https://gss1.bdstatic.com/-vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D260/sign=6806f59f1138534388cf8027a312b01f/9c16fdfaaf51f3dee9a3bf9795eef01f3a29792b.jpg)
物理意义
编辑
相对熵是用来度量使用基于
的编码来编码来自
的样本平均所需的额外的比特个数。 典型情况下,
表示数据的真实分布,
表示数据的理论分布,模型分布,或
的近似分布。
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D15/sign=2f120154c3fcc3ceb0c0cd3692456078/10dfa9ec8a1363270ad24f459a8fa0ec08fac78d.jpg)
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=222577ba15178a82ca3c7ba2f603a879/c75c10385343fbf212122b55bb7eca8065388f8e.jpg)
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=222577ba15178a82ca3c7ba2f603a879/c75c10385343fbf212122b55bb7eca8065388f8e.jpg)
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D15/sign=2f120154c3fcc3ceb0c0cd3692456078/10dfa9ec8a1363270ad24f459a8fa0ec08fac78d.jpg)
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=222577ba15178a82ca3c7ba2f603a879/c75c10385343fbf212122b55bb7eca8065388f8e.jpg)
根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是
,对
,其出现概率为
,那么其最优编码平均需要的比特数等于这个字符集的熵:
![](https://gss1.bdstatic.com/9vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=904c0b5dbb51f819f5250748dbb4bfd6/0dd7912397dda144046ae1c4b9b7d0a20cf48661.jpg)
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D38/sign=376ac38d0146f21fcd34585bf724e69e/48540923dd54564e72f8694fb8de9c82d1584f23.jpg)
![](https://gss1.bdstatic.com/9vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D30/sign=19d9405f8d18367aa98979dd2f73bdfe/0dd7912397dda14404bce1c4b9b7d0a20cf4860b.jpg)
![](https://gss2.bdstatic.com/9fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D165/sign=545d36b8afaf2eddd0f14defb8110102/ca1349540923dd54741aefd6d209b3de9c824826.jpg)
在同样的字符集上,假设存在另一个概率分布
,如果用概率分布
的最优编码(即字符
的编码长度等于
),来为符合分布
的字符编码,那么表示这些字符就会比理想情况多用一些比特数。相对熵就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离,即:
![](https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D32/sign=0f28e69986b1cb133a693a11dc540bf5/b219ebc4b74543a9b9a677ba15178a82b9011402.jpg)
![](https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D30/sign=1b1a58b89225bc312f5d07985fdf3060/79f0f736afc379313cba0b5fe0c4b74542a911f1.jpg)
![](https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D9/sign=3110707b7bcf3bc7ec00c1dcd131ab/9f2f070828381f30bf3d01dfa2014c086e06f0a4.jpg)
![](https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D57/sign=98b20b874836acaf5de096fb7dd9d4a3/8694a4c27d1ed21b5da9665bae6eddc451da3f2f.jpg)
![](https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D32/sign=0f28e69986b1cb133a693a11dc540bf5/b219ebc4b74543a9b9a677ba15178a82b9011402.jpg)
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D484/sign=b7bad564124c510faac4e312545b2528/caef76094b36acaf1e239d5074d98d1000e99c5e.jpg)
由于对数函数是上凸函数,所以:
![](https://gss1.bdstatic.com/-vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D724/sign=1d383e4545086e066ea83d4936097b5a/7acb0a46f21fbe09cec2616062600c338744ad22.jpg)
所以相对熵始终是大于等于0的,当且仅当两分布相同时,相对熵等于0。
性质
编辑
相对熵(KL散度)有两个主要的性质,如下:
(1)不对称性
尽管KL散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即
![](https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D129/sign=7152c18d0146f21fcd345a51cf256b31/64380cd7912397dd07dc17725282b2b7d0a2871b.jpg)
(2)非负性
区别与联系
编辑
信息熵,是随机变量或整个系统的不确定性。熵越大,随机变量或系统的不确定性就越大。
相对熵,用来衡量两个取值为正的函数或概率分布之间的差异。
交叉熵,用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。
相对熵=交叉熵-信息熵:
![](https://gss2.bdstatic.com/9fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D181/sign=f263a1203a7adab439d01f4bbad5b36b/21a4462309f790529258553600f3d7ca7bcbd576.jpg)
示例
编辑
假如一个字符发射器,随机发出0和1两种字符,真实发出概率分布为A,但实际不知道A的具体分布。通过观察,得到概率分布B与C,各个分布的具体情况如下:
![](https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D160/sign=7c3a2d55bb7eca8016053de1a1239712/95eef01f3a292df52ed52763b7315c6034a873b6.jpg)
![](https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D156/sign=c23f2c659cdda144de0968b784b6d009/8d5494eef01f3a29e31d5db89225bc315d607ceb.jpg)
![](https://gss0.bdstatic.com/-4o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D158/sign=6956084631f33a879a6d041ffe5d1018/2e2eb9389b504fc2690d3b73eedde71190ef6d72.jpg)
![](https://gss3.bdstatic.com/7Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D366/sign=2c3e1328d6c451daf2f60aed80fc52a5/b64543a98226cffc29fc34c4b2014a90f703eaf6.jpg)
![](https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D378/sign=b52422c4da58ccbf1fbcb33d21d9bcd4/fd039245d688d43f816e1a84761ed21b0ff43b84.jpg)
也可以看出,按照概率分布
进行编码,要比按照
进行编码,平均每个符号增加的比特数目少。从分布上也可以看出,实际上
要比
更接近实际分布(因为其与
分布的相对熵更小)
![](https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=e8cb5d50f6faaf5180e385bd8d543a45/72f082025aafa40f6d2b3baba064034f79f019d2.jpg)
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=d6b4ddd3017b020808c93be363d988aa/55e736d12f2eb93823e28f84de628535e5dd6f3d.jpg)
![](https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=e8cb5d50f6faaf5180e385bd8d543a45/72f082025aafa40f6d2b3baba064034f79f019d2.jpg)
![](https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=d6b4ddd3017b020808c93be363d988aa/55e736d12f2eb93823e28f84de628535e5dd6f3d.jpg)
![](https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D12/sign=22328bd6fd03738dda4a0820b31ba429/b3119313b07eca80fe0bcd919a2397dda14483be.jpg)
应用
编辑
相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算相对熵。另外,在多指标系统评估中,指标权重分配
[2]
是一个重点和难点,也通过相对熵可以处理。