KL散度、JS散度和交叉熵

对于连续型随机变量,假设P为随机变量X的概率分布,则p(x)为随机变量X在X = x处的概率
三者都是用来衡量两个概率分布P(x)和Q(x)之间的差异性的指标

KL散度
KL散度(Kullback–Leibler divergence)又称KL距离,相对熵。 D ( P ∣ ∣ Q ) = ∫ − ∞ ∞ P ( x ) l o g P ( x ) Q ( x ) D(P||Q)=\int_{-\infty}^\infty P(x)log\frac{P(x)}{Q(x)} D(PQ)=P(x)logQ(x)P(x)

  • 不对称性:即D(P||Q)!=D(Q||P)
  • 非负性:即D(P||Q)>0
  • P(x)和Q(x)的相似度越高,KL散度越小。

JS散度
JS散度(Jensen-Shannon divergence)也称JS距离,是KL散度的一种变形。
J S ( P ∣ ∣ Q ) = 1 2 K L ( P ( x ) ∣ ∣ P ( x ) + Q ( x ) 2 ) + 1 2 K L ( Q ( x ) ∣ ∣ P ( x ) + Q ( x ) 2 ) JS(P||Q)=\frac{1}{2}KL(P(x)||\frac{P(x)+Q(x)}{2})+\frac{1}{2}KL(Q(x)||\frac{P(x)+Q(x)}{2}) JS(PQ)=21KL(P(x)2P(x)+Q(x))+21KL(Q(x)2P(x)+Q(x))

  • 值域范围:JS散度的值域范围是[0,1],相同为0,相反为1。
  • 对称性:JS(P||Q)=JS(Q||P)

信息熵

  • 随机变量X在x处的香农信息量为: − l o g ( p ( x ) ) -log(p(x)) log(p(x)),确定性越大,信息量越小。
  • 信息熵 H ( p ) H(p) H(p)是香农信息量 − l o g ( p ( x ) ) -log(p(x)) log(p(x))的数学期望,即所有 X= x 处的香农信息量的和,由于每一个x的出现概率不一样,需要用p(x) 加权求和。 H ( P ) = − P ( x ) l o g P ( x ) H(P)=-P(x)logP(x) H(P)=P(x)logP(x)信息熵是用于刻画消除随机变量X的不确定性所需要的总体信息量的大小。

交叉熵(Cross Entropy)
在神经网络中,交叉熵可以作为损失函数,因为它可以衡量P和Q的相似性。 H ( P , Q ) = − P ( x ) l o g Q ( x ) H(P,Q)=-P(x)logQ(x) H(P,Q)=P(x)logQ(x)
交叉熵和相对熵的关系: D ( P ∣ ∣ Q ) = H ( P , Q ) − H ( P ) D(P||Q)=H(P,Q)-H(P) D(PQ)=H(P,Q)H(P)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值