机器学习(1) 熵 entropy

最新推荐文章于 2024-09-07 22:28:34 发布

GZHermit

最新推荐文章于 2024-09-07 22:28:34 发布

阅读量1.9k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/GZHermit/article/details/60346572

版权

本文介绍了机器学习中的熵概念，熵是衡量一个系统有序程度的指标，熵越高，表示系统的无序程度越高。同时，文章讨论了自信息、信息熵、联合熵、条件熵、互信息和交叉熵等信息理论基础，以及它们在理解和评估信息传输效率中的作用。还提到了KL散度作为衡量两个分布差异的重要度量。

摘要由CSDN通过智能技术生成

熵：反应一个系统的有序程度，熵越高，有序程度越低

熵的本质是香农信息量 $(log\frac{1}{p})$ 的期望。

自信息

用于衡量单一事件发生时所包含的信息量多寡，记作 $I(X)$

$I (x) = - l o g P (x)$ $I(x) = -logP(x)$
$P(x)$ 越小，表示单一事件的发生概率越小，一旦发生，则包含的信息量越多，则 $I(x)$ 越大。若 $P(x)=1$ ，则自信息量为0。

就像打辩论的时候讲一件众所周知的事情等于没讲一样，不能带来任何信息。

信息熵

对于随机变量 $X$ ，若 $X$ ={ $x_1,x_2,...,x_n$ }，其对应概率为 $P(X=x_i),i=1,2,...n$

则随机变量 $X$ 的熵定义为:

$H (X) = E [I (X)] = - \sum i = 1 n p (x i) l o g p (x i)$ $H(X) = E[I(X)]= -\sum_{i=1}^np(x_i)logp(x_i)$
当 $p(x_i)$ 越大，则 $H(x)$ 越小

联合熵

假设 $X,Y$ 的联合分布为 $P(X,Y)$ ，则其信息熵为:

$H (X, Y) = E [I (X, Y)] = - \sum x, y p (x, y) l o g p (x, y)$ $H(X,Y) = E[I(X,Y)]= -\sum_{x,y}p(x,y)logp(x,y)$

条件熵

条件熵描述了在已知随机变量 $X$ 的值的情况下关于随机变量 $Y$ 的信息熵
若 $H(Y|X=x)$ 表示在 $X=x$ 的情况下 $Y$ 的信息熵，则，

$H (Y | X) = - \sum x p (x) H (Y | X = x) = - \sum x p (x) \sum y p (y | x) l$