经验累积分布函数(ECDF)是一种用于可视化数据分布的统计工具。它表示给定数据集中小于或等于给定值的观测值的累积百分比。ECDF 是一种非参数化的描述统计方法,不对数据分布进行假设,而是直接利用观测到的数据点。
具体而言,对于给定的数据集,ECDF 的计算步骤如下:
- 对数据集中的每个观测值,确定小于或等于该值的观测值的数量。
- 将这个数量除以数据集的总观测值数量,得到累积分布的百分比。
ECDF 图是由数据集中的每个唯一值及其对应的累积百分比组成的曲线图。该图可用于直观地观察数据的分布情况,包括中位数、分位数和数据的离散程度。
让我们通过一个简单的例子来说明:
假设我们有以下数据集: 2 , 3 , 4 , 4 , 6 , 8 2, 3, 4, 4, 6, 8 2,3,4,4,6,8
- 对于值 2,有1个数据点小于或等于2( 1 / 6 1/6 1/6),因此在 x=2 处的 ECDF 值为 1 / 6 1/6 1/6。
- 对于值 3,有2个数据点小于或等于3( 2 / 6 2/6 2/6),因此在 x=3 处的 ECDF 值为 2 / 6 2/6 2/6。
- 对于值 4,有4个数据点小于或等于4( 4 / 6 4/6 4/6),因此在 x=4 处的 ECDF 值为 4 / 6 4/6 4/6。
- 对于值 6,有5个数据点小于或等于6( 5 / 6 5/6 5/6),因此在 x=6 处的 ECDF 值为 5 / 6 5/6 5/6。
- 对于值 8,有6个数据点小于或等于8( 6 / 6 6/6 6/6),因此在 x=8 处的 ECDF 值为 6 / 6 6/6 6/6。
通过连接这些点,我们可以绘制出 ECDF 图,该图显示了每个观测值的累积分布情况。 ECDF 在理解数据分布、比较不同数据集以及检查数据的百分位数方面都非常有用。