熵、交叉熵和散度

自信息 I(x) = - log p(x)

对于分布为P(x)的随机变量X,自信息的数学期望 即熵H(X)定义为:

   H(X) = E_{X}[I(x))]

= E_{X}[-logp(x)]

       =-\sum_{x\in X}^{}p(x)logp(x)

熵越高,随机变量信息越高,反之越少。不同概率分布对应熵如下:P

p(x_{1})p(x_{2})p(x_{3})
1000
1/21/41/4\frac{3}{2}log2
1/31/31/3log3

概率分布越均匀,熵越大。 

 联合熵:

对于两个离散随机变量𝑋 和𝑌,假设𝑋 取值集合为𝒳;𝑌 取值集合为𝒴,其联 合概率分布满足为𝑝(𝑥, 𝑦),则𝑋 和𝑌 的联合熵(Joint Entropy):

H(X,Y)=-\sum_{x\in X}^{} \sum_{y\in Y}^{}p(x,y)logp(x\mid y)

条件熵:

根据定义也可写成: 

 

 

 交叉熵:

 对于分布为𝑝(𝑥)的随机变量,熵𝐻(𝑝)表示其最优编码长度.交叉熵(Cross Entropy)是按照概率分布𝑞的最优编码对真实分布为𝑝的信息进行编码的长度, 定义为:

 给定 𝑝 的情况下,如果 𝑞 和 𝑝 越接近,交叉熵越小;如果 𝑞 和 𝑝 越远,交叉 熵就越大..

KL散度: 

KL 散度(KL Divergence),也叫相对熵,是用概率分布 𝑞 来近似 𝑝 时所造成的信息损失量.KL 散度是按照概 率分布𝑞的最优编码对真实分布为𝑝的信息进行编码,其平均编码长度(即交叉 熵)𝐻(𝑝, 𝑞) 和 𝑝 的最优平均编码长度(即熵)𝐻(𝑝) 之间的差异.对于离散概率 分布𝑝和𝑞,从𝑞到𝑝的KL散度定义为

 

KL散度总是非负的,KL(𝑝, 𝑞) ≥ 0,可以衡量两个概率分布之间的距离.KL 散度只有当𝑝 = 𝑞时,KL(𝑝, 𝑞) = 0.如果两个分布越接近,KL散度越小;如果两 个分布越远,KL散度就越大.但KL散度并不是一个真正的度量或距离,一是KL 散度不满足距离的对称性,二是KL散度不满足距离的三角不等式性质.

JS散度: 

JS散度(Jensen-Shannon Divergence)是一种对称的衡量两个分布相似度 的度量方式,定义为:JS(p,q)=\frac{1}{2}KL(p,m)+\frac{1}{2}KL(q,m),其中,m=\frac{1}{2}(p+q).

JS 散度是 KL 散度一种改进.但两种散度都存在一个问题,即如果两个分布 𝑝, 𝑞没有重叠或者重叠非常少时,KL散度和JS散度都很难衡量两个分布的距离.

Wasserstein距离 

Wasserstein 距离(Wasserstein Distance)也用于衡量两个分布之间的距 离.对于两个分布𝑞1 , 𝑞2,p^{th}Wasserstein距离定义为

 

其中Γ(𝑞1 , 𝑞2 )是边际分布为𝑞1 和𝑞2 的所有可能的联合分布集合,𝑑(𝑥, 𝑦)为𝑥 和 𝑦的距离,比如ℓ𝑝 距离等. 

 如果将两个分布看作两个土堆,联合分布 𝛾(𝑥, 𝑦) 看作从土堆 𝑞1 的位置 𝑥 到 土堆𝑞2 的位置𝑦的搬运土的数量,并有

 𝑞1 和𝑞2 为𝛾(𝑥, 𝑦)的两个边际分布。𝔼(𝑥,𝑦)∼𝛾(𝑥,𝑦)[𝑑(𝑥, 𝑦) ] 可以理解为在联合分布 𝛾(𝑥, 𝑦) 下把形状为 𝑞1 的土堆 搬运到形状为𝑞2 的土堆所需的工作量,

 

其中从土堆𝑞1 中的点𝑥 到土堆𝑞2 中的点𝑦 的移动土的数量和距离分别为𝛾(𝑥, 𝑦) 和 d(x,y)^{p}.因此,Wasserstein 距离可以理解为搬运土堆的最小工作量,也称 为推土机距离(Earth-Mover’s Distance,EMD).图E.1给出了两个离散变量分 布的Wasserstein距离示例.图E.1c中同颜色方块表示在分布𝑞1 中为相同位置. 

 

 

Wasserstein 距离相比 KL 散度和 JS 散度的优势在于:即使两个分布没有重 叠或者重叠非常少,  Wasserstein距离仍然能反映两个分布的远近. 对于 ℝ𝐷 空间中的两个高斯分布 𝑝 = 𝒩(𝝁1 , 𝚺1 ) 和 𝑞 = 𝒩(𝝁2 , 𝚺2 ),它们的 2^{nd}-Wasserstein距离为

 

当两个分布的方差为0时,2^{nd}-Wasserstein距离等价于欧氏距离. 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值