信息论——熵,散度,Wasserstein distance

#信息熵
H ( x ) = − ∫ x P ( x ) l o g ( P ( x ) ) d x H(x)=-\int _{x}P(x)log(P(x))dx H(x)=xP(x)log(P(x))dx

信息熵表示一个随机变量在经过随机事件结果,随机变量状态量的大小。


#条件熵

表示的是在已知随机变量X的前提下,随机变量Y的信息熵,注意X是随机变量。

H ( Y ∣ X ) = ∑ x , y p ( x , y ) l o g p ( x ) p ( x , y ) H(Y|X) = \sum_{x,y}p(x,y)log\frac{p(x)}{p(x,y)} H(YX)=x,yp(x,y)logp(x,y)p(x)

链式法则:

H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y) H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)


#互信息

由链式法则, H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) H(X)-H(X|Y)=H(Y)-H(Y|X) H(X)H(XY)=H(Y)H(YX)

互信息 I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y) = H(X)-H(X|Y) I(X;Y)=H(X)H(XY)
= H ( x ) + H ( Y ) − H ( ( X , Y ) ) = H(x)+H(Y)-H((X,Y)) =H(x)+H(Y)H((X,Y))
= ∑ x , y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) = \sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} =x,yp(x,y)logp(x)p(y)p(x,y)
表示的是一个随机变量X信息量有多少是关于X,Y互相包含的信息。


#距离函数

定义一个集合元素之间的距离的函数。

d: x ∗ x − > [ 0 , + ∞ ) x*x->[0,+\infin) xx>[0,+)并且满足以下条件:

  1. d(x,y)>=0
  2. d(x,y)=0<=>x=y
  3. d(x,y) = d(y,x)
  4. d(x,z)<=d(x,y)+d(y,z)

#Total Variation distance (TV)

θ ( P , Q ) = s u p A ∈ F ∣ P ( A ) − Q ( A ) ∣ \theta(P,Q)=sup_{A\in F}|P(A)-Q(A)| θ(P,Q)=supAFP(A)Q(A)

描述两个分布的距离,L1正则化。


KL divergence

  1. KL不具有对称性,KL(P||Q) != KL(Q||P).
  2. KL不具有可比性,K(P||Q)>KL(R||Q),不能说明分布P更接近Q.
    K L ( P ∣ ∣ Q ) = − ∫ x P ( x ) l o g Q ( x ) P ( x ) d x KL(P||Q)= -\int_{x}P(x)log\frac{Q(x)}{P(x)}dx KL(PQ)=xP(x)logP(x)Q(x)dx
    描述的是两个分布之间的相似性。但是有以上缺点

#f-divergence
D f ( p ∣ ∣ q ) = ∫ q ( x ) f ( p ( x ) q ( x ) ) d x D_{f}(p||q)=\int q(x)f(\frac{p(x)}{q(x)})dx Df(pq)=q(x)f(q(x)p(x))dx
当f取-log时,f散度是KL散度


Jensen-Shanno divergence

J S D ( P ∣ ∣ Q ) = 0.5 ∗ K L ( P ∣ ∣ M ) + 0.5 ∗ K L ( Q ∣ ∣ M ) M = 0.5 ∗ ( P + Q ) JSD(P||Q)=0.5*KL(P||M)+0.5*KL(Q||M)M=0.5*(P+Q) JSD(PQ)=0.5KL(PM)+0.5KL(QM)M=0.5(P+Q)

  1. JS散度和互信息有相关性
  2. JS散度范围是[0,1]
  3. JS散度具有可比性
    描述的是两个分布之间的距离。

#Wasserstein distance

描述的是从分布P(x)移动到分布Q(x)所需要的最小代价。

W p ( u , v ) = i n f r ∈ T ( u , v ) ∫ M ∗ M ( d ( x , y ) ) p d r ( x , y ) p W_{p}(u,v) =inf_{r\in T(u,v)} \int_{M*M}(d(x,y))^{p}dr(x,y)^{p} Wp(u,v)=infrT(u,v)MM(d(x,y))pdr(x,y)p

r(x,y)是要满足的约束。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

super_lsl

谢谢你的欣赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值