信息论——熵，散度，Wasserstein distance

最新推荐文章于 2024-07-03 18:41:34 发布

super_lsl

最新推荐文章于 2024-07-03 18:41:34 发布

阅读量941

点赞数

分类专栏：信息论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Formlsl/article/details/80668456

版权

信息论专栏收录该内容

2 篇文章 0 订阅

订阅专栏

#信息熵
$H(x)=-\int _{x}P(x)log(P(x))dx$

信息熵表示一个随机变量在经过随机事件结果，随机变量状态量的大小。

#条件熵

表示的是在已知随机变量X的前提下，随机变量Y的信息熵，注意X是随机变量。

$\sum_{x,y}p(x,y)log\frac{p(x)}{p(x,y)}$

链式法则：

$H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)$

#互信息

由链式法则， $H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X)$

互信息 $I (X; Y) = H (X) - H (X ∣ Y)$
$= H (x) + H (Y) - H ((X, Y))$
$\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$
表示的是一个随机变量X信息量有多少是关于X,Y互相包含的信息。

#距离函数

定义一个集合元素之间的距离的函数。

d: $x*x->[0,+\infin)$ 并且满足以下条件：

d(x,y)>=0
d(x,y)=0<=>x=y
d(x,y) = d(y,x)
d(x,z)<=d(x,y)+d(y,z)

#Total Variation distance (TV)

$\theta(P,Q)=sup_{A\in F}|P(A)-Q(A)|$

描述两个分布的距离，L1正则化。

KL divergence

KL不具有对称性，KL(P||Q) != KL(Q||P).
KL不具有可比性，K(P||Q)>KL(R||Q)，不能说明分布P更接近Q.
$-\int_{x}P(x)log\frac{Q(x)}{P(x)}dx$
描述的是两个分布之间的相似性。但是有以上缺点

#f-divergence
$D_{f}(p||q)=\int q(x)f(\frac{p(x)}{q(x)})dx$
当f取-log时，f散度是KL散度

Jensen-Shanno divergence

$J S D (P ∣ ∣ Q) = 0.5 * K L (P ∣ ∣ M) + 0.5 * K L (Q ∣ ∣ M) M = 0.5 * (P + Q)$

JS散度和互信息有相关性
JS散度范围是[0,1]
JS散度具有可比性
描述的是两个分布之间的距离。

#Wasserstein distance

描述的是从分布P(x)移动到分布Q(x)所需要的最小代价。

$W_{p}(u,v) =inf_{r\in T(u,v)} \int_{M*M}(d(x,y))^{p}dr(x,y)^{p}$

r(x,y)是要满足的约束。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

super_lsl 谢谢你的欣赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。