熵 Entropy 笔记

最新推荐文章于 2021-12-18 21:47:25 发布

killercars

最新推荐文章于 2021-12-18 21:47:25 发布

阅读量591

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Excaliburrr/article/details/93738970

版权

熵 Entropy

一个完全可以预测的确定性实验（deterministic experiment），比如抛硬币P(H)=1，熵为零。一个完全随机的实验，比如掷骰子，是最不可预测的，具有最大的不确定性，在这样的实验中具有最高的熵。

$H(x)=-\Sigma_{i=1}^np(x_i)\log_2p(x_i)$

log如果以2为底数的话，信息熵的单位就是比特 bit，以e为底数的话，信息熵的单位就是 nat，以10为底数的话，单位就是 hat。

也叫信息熵（Information Entropy）或香农熵（Shannon Entropy）。

最大熵原理 Principle of Maximum Entropy

用于决策树，以求解包含约束条件的函数极值方式实现。

最大熵原理的本质：系统中事件发生的概率满足一切已知约束条件，不对任何未知信息做假设，也就是对于未知的，当作等概率处理。

交叉熵 Cross-entropy

交叉熵是用来比较两个概率分布的。它会告诉我们两个分布的相似程度。

$H(P,Q)=-\Sigma_{x}p(x)\log{q(x)}$

常用损失函数之一。

互信息 Mutual Information

互信息是两个概率分布或随机变量之间相互依赖的度量。它告诉我们一个变量的多少信息量是被另一个变量携带的。

互信息捕捉随机变量之间的依赖关系，并且比普通相关系数更具有泛化性，而普通相关系数仅捕获线性关系。

两个离散随机变量X和Y的互信息被定义为：

$I(X;Y)=\Sigma_{y\in{Y}}\Sigma_{x\in{X}}\log{\frac{p(x,y)}{p(x)p(y)}}$

在贝叶斯网络中，变量之间的关系结构可以使用互信息来确定。

KL散度 Kullback Leibler Divergence

KL散度是寻找两个概率分布之间相似性的另一种方法。它衡量了一个分配与另一个分配之间的差异程度。

假设，我们有一些数据，真实的分布是“P”。

$D_{KL}(P||Q)=\Sigma_xp(x)\log{\frac{p(x)}{q(x)}}$

“P”和“Q”之间的KL散度会告诉我们，当我们尝试用“Q”近似“P”给出的数据时，我们失去了多少信息。

KL散度也称为相对熵。

相对熵和交叉熵的关系：
$\begin{aligned} D_{KL}(P||Q)&=\Sigma_xp(x)\log{\frac{p(x)}{q(x)}}\\ &=\Sigma_x{p(x)\log{p(x)}-\Sigma_xp(x)\log{q(x)}}\\ &=-H(P)+H(P,Q) \end{aligned}$

此外可见KL散度具有非对称性，即 $D_{KL}(P||Q)\not=D_{KL}(Q||P)$

JS散度 Jensen-Shannon divergence

KL散度的变形，修正了值域范围和对称性，未见使用。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
熵 Entropy 笔记

熵 Entropy一个完全可以预测的确定性实验（deterministic experiment），比如抛硬币P(H)=1，熵为零。一个完全随机的实验，比如掷骰子，是最不可预测的，具有最大的不确定性，在这样的实验中具有最高的熵。H(x)=−Σi=1np(xi)log⁡2p(xi)H(x)=-\Sigma_{i=1}^np(x_i)\log_2p(x_i)H(x)=−Σi=1np(xi)l...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。