AI数学基础——经验分布，熵_什么是经验分布-CSDN博客

本文链接：https://blog.csdn.net/guo11327/article/details/100555789

本文介绍了经验分布，它是样本的统计表现，经验分布函数在数据点上呈阶梯状上升，并且在概率1下收敛到基础分布。熵作为信息的度量，描述了随机事件的不确定性，包括信息熵、条件熵、相对熵（KL散度）和交叉熵等概念，这些在机器学习中有着重要应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

经验分布

经验分布函数是与样本经验测度相关的分布函数。该分布函数是在n个数据点中的每一个上都跳跃1 / n的阶梯函数。其在测量变量的任何指定值处的值是小于或等于指定值的测量变量的观测值的数。
经验分布函数是对样本中生成点的累积分布函数的估计。根据Glivenko-Cantelli定理，它以概率1收敛到该基础分布。同时也存在一些结果来量化经验分布函数与潜在的累积分布函数的收敛速度。

在这里插入图片描述

我的理解

经验分布是对样本的统计，单一样本的概率分布为 $1 / N$ 。
画图表示，可看到分布函数为呈跳跃上升的，每一跳跃为1/n，若有重复L次的值，则按1/n的L倍跳跃上升。图中圆滑曲线是总体X的理论分布函数F(x)的图形。若把经验分布函数的图形连成折线，那么它实际就是累积频率直方图的上边。
这和概率分布函数的性质是一致的。
在这里插入图片描述
经典统计推断主要的思想就是用样本分布来推断总体分布。

熵

熵详细介绍
下文仅为个人总结，参考

信息熵（information entropy）

信息熵是对信息的度量，对某一事件，信息越多则越了解。那么该事件的不确定性越低。
信息熵越低，信息的确定性越低。中国是一个国家。
而对于海南下雪了，我们需要大量的信息来佐证，则信息的熵很高。
这里仍然很抽象，度量的标准仍然很模糊，我们接着往下看

考虑随机变量 $x$ ,发生的概率为 $P (x)$ , $I (x)$ 随机变量 $x$ 的自信息 (self-information)，描述的是随机变量的某个事件发生所带来的信息量。
事件发生产生信息，多个事件x,y（相互独立）一起发生,则产生信息增加。
$I (x, y) = I (x) + I (y)$
$P (x, y) = P (x) * P (y)$
$I (x)$ 一定与 $P (x)$ 的对数有关。
$I (x) = - l o g p (x)$
$I (x)$ 的关于概率分布 $P (x)$ 期望为:
$H(X)=-\displaystyle\sum_{x}p(x)logp(x)=-\sum_{i=1}^{n}p(x_i)logp(x_i)$
$H (x <$