熵 Entropy 笔记

熵 Entropy

一个完全可以预测的确定性实验(deterministic experiment),比如抛硬币P(H)=1,熵为零。一个完全随机的实验,比如掷骰子,是最不可预测的,具有最大的不确定性,在这样的实验中具有最高的熵。

H ( x ) = − Σ i = 1 n p ( x i ) log ⁡ 2 p ( x i ) H(x)=-\Sigma_{i=1}^np(x_i)\log_2p(x_i) H(x)=Σi=1np(xi)log2p(xi)

log如果以2为底数的话,信息熵的单位就是比特 bit,以e为底数的话,信息熵的单位就是 nat,以10为底数的话,单位就是 hat。

也叫信息熵(Information Entropy)或香农熵(Shannon Entropy)。


最大熵原理 Principle of Maximum Entropy

用于决策树,以求解包含约束条件的函数极值方式实现。

最大熵原理的本质:系统中事件发生的概率满足一切已知约束条件,不对任何未知信息做假设,也就是对于未知的,当作等概率处理。


交叉熵 Cross-entropy

交叉熵是用来比较两个概率分布的。它会告诉我们两个分布的相似程度。

H ( P , Q ) = − Σ x p ( x ) log ⁡ q ( x ) H(P,Q)=-\Sigma_{x}p(x)\log{q(x)} H(P,Q)=Σxp(x)logq(x)

常用损失函数之一。


互信息 Mutual Information

互信息是两个概率分布或随机变量之间相互依赖的度量。它告诉我们一个变量的多少信息量是被另一个变量携带的。

互信息捕捉随机变量之间的依赖关系,并且比普通相关系数更具有泛化性,而普通相关系数仅捕获线性关系。

两个离散随机变量X和Y的互信息被定义为:

I ( X ; Y ) = Σ y ∈ Y Σ x ∈ X log ⁡ p ( x , y ) p ( x ) p ( y ) I(X;Y)=\Sigma_{y\in{Y}}\Sigma_{x\in{X}}\log{\frac{p(x,y)}{p(x)p(y)}} I(X;Y)=ΣyYΣxXlogp(x)p(y)p(x,y)

在贝叶斯网络中,变量之间的关系结构可以使用互信息来确定。


KL散度 Kullback Leibler Divergence

KL散度是寻找两个概率分布之间相似性的另一种方法。它衡量了一个分配与另一个分配之间的差异程度。

假设,我们有一些数据,真实的分布是“P”。

D K L ( P ∣ ∣ Q ) = Σ x p ( x ) log ⁡ p ( x ) q ( x ) D_{KL}(P||Q)=\Sigma_xp(x)\log{\frac{p(x)}{q(x)}} DKL(PQ)=Σxp(x)logq(x)p(x)

“P”和“Q”之间的KL散度会告诉我们,当我们尝试用“Q”近似“P”给出的数据时,我们失去了多少信息。

KL散度也称为相对熵。

相对熵和交叉熵的关系:
D K L ( P ∣ ∣ Q ) = Σ x p ( x ) log ⁡ p ( x ) q ( x ) = Σ x p ( x ) log ⁡ p ( x ) − Σ x p ( x ) log ⁡ q ( x ) = − H ( P ) + H ( P , Q ) \begin{aligned} D_{KL}(P||Q)&=\Sigma_xp(x)\log{\frac{p(x)}{q(x)}}\\ &=\Sigma_x{p(x)\log{p(x)}-\Sigma_xp(x)\log{q(x)}}\\ &=-H(P)+H(P,Q) \end{aligned} DKL(PQ)=Σxp(x)logq(x)p(x)=Σxp(x)logp(x)Σxp(x)logq(x)=H(P)+H(P,Q)

此外可见KL散度具有非对称性,即 D K L ( P ∣ ∣ Q ) ̸ = D K L ( Q ∣ ∣ P ) D_{KL}(P||Q)\not=D_{KL}(Q||P) DKL(PQ)̸=DKL(QP)


JS散度 Jensen-Shannon divergence

KL散度的变形,修正了值域范围和对称性,未见使用。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
搜索是一种优化算法,最初被用于解决概率空间搜索问题。它通过不断评估目标函数的值,来找到使目标函数最小化或最大化的最优解。与其他传统的优化算法相比,搜索具有自适应性和高效性的特点。 搜索的核心思想是通过的计算来评估搜索空间中的不确定性,以指导搜索过程。是一个物理学上的概念,表示系统的混乱程度。在搜索过程中,是通过计算样本的信息来表示的,信息越大则表明搜索空间中的不确定性越高。 搜索算法首先对搜索空间进行划分,并对划分后的子空间进行采样。然后,对每个采样点进行目标函数的评估,并计算子空间的信息。接下来,根据信息的大小确定下一步的搜索方向。如果某个子空间的信息较大,则说明该子空间的不确定性高,需要进一步细分。反之,如果信息较小,则说明该子空间的不确定性较低,可以缩小搜索范围。通过这种自适应的方式,搜索能够高效地找到全局最优解。 搜索算法的应用范围广泛,可以解决许多实际问题,如工程优化、机器学习、数据挖掘等。它不仅能够找到全局最优解,而且能够在搜索过程中自动调整搜索范围,减少搜索时间。然而,搜索算法也存在一些问题,例如对搜索空间的划分会带来一定的计算复杂度,对参数的选择也需要一定的经验和调整。 总之,搜索是一种基于信息的优化算法,具有自适应性和高效性的特点。它能够帮助我们在复杂的概率空间中寻找最优解,解决实际问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值