KL散度与交叉熵

参考   KL散度与交叉熵 - 云+社区 - 腾讯云

一、熵和互信息

香农熵(Shannon entropy)用来对概率分布中不确定性总量进行量化:

                                                H(x)=E_{x\sim P}[I(x)]=-E_{x\sim P}[logP(x)]

也记作H(P)。换言之,一个分布的香农熵是指遵循这个分布的时间所产生的期望的信息总量。它给出了对依据概率分布P生成的符号进行编码所需的比特数在平均意义上的下界。哪些接近确定性的分布(输出几乎可以确定)具有较低的熵:那些接近均匀分布的概率分布的概率分布具有较高的熵。当x是连续时,香农熵被称为微分熵(differential entropy)。

互信息的定义为:

                                           \large I(X,Y)=\sum_{y\in Y}\sum_{x\in X} p(x,y)log(\frac{p(x,y)}{p(x)p(y)})

其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。

二、KL散度

如果对同一个随机变量x有两个单独的概率分布P(x)和Q(x),可以使用KL散度(Kullback-Leibler(KL) divergence)来衡量这两个分布的差异:

                                           D_{KL}(P||Q)=E_{x\sim P}[log\frac{P(x)}{Q(x)}]=E_{x\sim P}[logP(x)-logQ(x)]

对离散型型随机变量,表达式展开为:

                                          D_{KL}(p||q)=\sum_{i=1}^Np(x_i)\cdot log\frac{p(x_i)}{q(x_i)}

 KL散度的意义:KL散度衡量的是,当我们使用一种被设计成能够使得模型概率分布Q产生的消息的长度最小的编码,发送包含由概率分布P产生的消息时,所需要的额外的信息量。

KL散度有很多有用的性质,最中要的是,它是非负的,KL散度为0。当且仅当P和Q在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的。因为KL散度是非负的并且衡量的是两个分布之间的差异,它经常被用作分布之间的某种距离。然而,它并不是真正的距离,因为它不是对称的:对于某些P和Q,D_{KL}(P||Q)\neq D_{KL}(Q||P)。这种非对称意味着选择D_{KL}(P||Q)还是D_{KL}(Q||P)影响很大。

三、交叉熵

和KL散度密切联系的是交叉熵(cross-entropy),即H(P,Q)=H(P)+D_{KL}(P||Q),它和KL散度很像,但是缺少左边一项:
                                                                H(P,Q)=-E_{x\sim P}logQ(x)

对离散型型随机变量,表达式展开为:

                                                                D_{KL}(p||q)=-\sum_{i=1}^Np(x_i)\cdot q(x_i)

针对Q最小化交叉熵等价于最小化KL散度,因为Q并不参与被省略的那一项。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wanderer001

ROIAlign原理

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值