经验分布是概率统计中的一个基本概念,用于描述从有限样本数据中估计的概率分布。它是一个基于数据的分布,用来近似未知的真实分布(通常称为“总体分布”)。经验分布直接反映了样本中事件发生的频率。
1. 定义
对于一个样本数据集 { x 1 , x 2 , … , x N } \{x_1, x_2, \dots, x_N\} {x1,x2,…,xN},经验分布是基于数据统计得到的分布函数,用来估计总体分布。
经验分布函数 (Empirical Distribution Function, EDF)
经验分布函数定义为:
F
emp
(
x
)
=
1
N
∑
i
=
1
N
1
{
x
i
≤
x
}
F_{\text{emp}}(x) = \frac{1}{N} \sum_{i=1}^N \mathbf{1}_{\{x_i \leq x\}}
Femp(x)=N1i=1∑N1{xi≤x}
-
含义:
- F emp ( x ) F_{\text{emp}}(x) Femp(x) 表示样本数据中小于等于 x x x 的样本比例。
- 1 { x i ≤ x } \mathbf{1}_{\{x_i \leq x\}} 1{xi≤x} 是指示函数,若 x i ≤ x x_i \leq x xi≤x 则取值为 1,否则为 0。
-
性质:
- F emp ( x ) F_{\text{emp}}(x) Femp(x) 是一个单调非减的阶梯函数;
- 样本的每个取值对应一个阶梯,阶梯的高度为 1 N \frac{1}{N} N1。
2. 特点
-
基于数据:
- 经验分布直接从样本中计算得到,无需假设数据分布的形式。
- 它是一种非参数分布估计方法。
-
离散性:
- 经验分布函数是阶梯函数,因为它仅在样本点发生变化。
-
近似真实分布:
- 当样本量 N → ∞ N \to \infty N→∞ 时,经验分布 F emp ( x ) F_{\text{emp}}(x) Femp(x) 会逐渐收敛到真实的分布函数 F ( x ) F(x) F(x)。
3. 计算经验分布的步骤
- 收集样本数据:
- 例如:样本 { 1.2 , 2.5 , 2.5 , 3.1 , 4.0 } \{1.2, 2.5, 2.5, 3.1, 4.0\} {1.2,2.5,2.5,3.1,4.0}。
- 按大小排序样本:
- 排序后 { 1.2 , 2.5 , 2.5 , 3.1 , 4.0 } \{1.2, 2.5, 2.5, 3.1, 4.0\} {1.2,2.5,2.5,3.1,4.0}。
- 计算经验分布函数:
- 对每个样本点 x x x,计算小于等于 x x x 的样本比例。
示例
样本数据: { 1 , 2 , 2 , 3 } \{1, 2, 2, 3\} {1,2,2,3}(总共 4 个数据点, N = 4 N = 4 N=4)。
经验分布函数 F emp ( x ) F_{\text{emp}}(x) Femp(x):
- F emp ( x ) = 0 , x < 1 F_{\text{emp}}(x) = 0, \, x < 1 Femp(x)=0,x<1
- F emp ( x ) = 1 4 , 1 ≤ x < 2 F_{\text{emp}}(x) = \frac{1}{4}, \, 1 \leq x < 2 Femp(x)=41,1≤x<2
- F emp ( x ) = 3 4 , 2 ≤ x < 3 F_{\text{emp}}(x) = \frac{3}{4}, \, 2 \leq x < 3 Femp(x)=43,2≤x<3
- F emp ( x ) = 1 , x ≥ 3 F_{\text{emp}}(x) = 1, \, x \geq 3 Femp(x)=1,x≥3
4. 经验分布与真实分布的关系
-
真实分布 (Population Distribution):
F ( x ) F(x) F(x) 是总体分布函数,表示随机变量 X X X 小于等于 x x x 的概率。
F ( x ) = P ( X ≤ x ) F(x) = P(X \leq x) F(x)=P(X≤x) -
经验分布 (Empirical Distribution):
F emp ( x ) F_{\text{emp}}(x) Femp(x) 是样本估计的分布函数,用有限样本估计真实分布。
F emp ( x ) = 样本中满足 X ≤ x 的个数 样本总数 F_{\text{emp}}(x) = \frac{\text{样本中满足 } X \leq x \text{ 的个数}}{\text{样本总数}} Femp(x)=样本总数样本中满足 X≤x 的个数
收敛性:
当样本量
N
→
∞
N \to \infty
N→∞ 时,经验分布
F
emp
(
x
)
F_{\text{emp}}(x)
Femp(x) 会逐渐收敛到真实分布
F
(
x
)
F(x)
F(x)。这种收敛由格利文科-坎特利定理保证。
5. 经验分布的应用
-
统计推断:
- 用于估计真实分布的形式,尤其在不知道分布形式时提供非参数估计。
-
机器学习:
- 在模型训练中,经验分布可以用于计算样本权重或评估模型表现。
-
可视化:
- 经验分布函数可以绘制成图形,帮助理解数据分布。
-
假设检验:
- 经验分布函数可以用于检验数据是否符合某种假设分布,例如 Kolmogorov-Smirnov 检验。
6. 示例:从数据中构造经验分布
假设我们有以下 10 条样本数据(表示某次实验的观测值):
{
1.5
,
2.0
,
2.5
,
3.0
,
3.0
,
3.5
,
4.0
,
4.0
,
4.5
,
5.0
}
\{1.5, 2.0, 2.5, 3.0, 3.0, 3.5, 4.0, 4.0, 4.5, 5.0\}
{1.5,2.0,2.5,3.0,3.0,3.5,4.0,4.0,4.5,5.0}
步骤 1:排序数据
{ 1.5 , 2.0 , 2.5 , 3.0 , 3.0 , 3.5 , 4.0 , 4.0 , 4.5 , 5.0 } \{1.5, 2.0, 2.5, 3.0, 3.0, 3.5, 4.0, 4.0, 4.5, 5.0\} {1.5,2.0,2.5,3.0,3.0,3.5,4.0,4.0,4.5,5.0}
步骤 2:计算每个点的经验分布值
构造经验分布函数 F emp ( x ) F_{\text{emp}}(x) Femp(x):
- 对于 x < 1.5 x < 1.5 x<1.5, F emp ( x ) = 0 F_{\text{emp}}(x) = 0 Femp(x)=0
- 对于 1.5 ≤ x < 2.0 1.5 \leq x < 2.0 1.5≤x<2.0, F emp ( x ) = 1 10 = 0.1 F_{\text{emp}}(x) = \frac{1}{10} = 0.1 Femp(x)=101=0.1
- 对于 2.0 ≤ x < 2.5 2.0 \leq x < 2.5 2.0≤x<2.5, F emp ( x ) = 2 10 = 0.2 F_{\text{emp}}(x) = \frac{2}{10} = 0.2 Femp(x)=102=0.2
- 对于 2.5 ≤ x < 3.0 2.5 \leq x < 3.0 2.5≤x<3.0, F emp ( x ) = 3 10 = 0.3 F_{\text{emp}}(x) = \frac{3}{10} = 0.3 Femp(x)=103=0.3
- 对于 3.0 ≤ x < 3.5 3.0 \leq x < 3.5 3.0≤x<3.5, F emp ( x ) = 5 10 = 0.5 F_{\text{emp}}(x) = \frac{5}{10} = 0.5 Femp(x)=105=0.5
- 对于 3.5 ≤ x < 4.0 3.5 \leq x < 4.0 3.5≤x<4.0, F emp ( x ) = 6 10 = 0.6 F_{\text{emp}}(x) = \frac{6}{10} = 0.6 Femp(x)=106=0.6
- 对于 4.0 ≤ x < 4.5 4.0 \leq x < 4.5 4.0≤x<4.5, F emp ( x ) = 8 10 = 0.8 F_{\text{emp}}(x) = \frac{8}{10} = 0.8 Femp(x)=108=0.8
- 对于 4.5 ≤ x < 5.0 4.5 \leq x < 5.0 4.5≤x<5.0, F emp ( x ) = 9 10 = 0.9 F_{\text{emp}}(x) = \frac{9}{10} = 0.9 Femp(x)=109=0.9
- 对于 x ≥ 5.0 x \geq 5.0 x≥5.0, F emp ( x ) = 1.0 F_{\text{emp}}(x) = 1.0 Femp(x)=1.0
步骤 3:绘制经验分布函数
经验分布函数是阶梯状的非减函数,可以用图像直观表示数据分布。
总结
经验分布是一种基于样本数据的概率分布,反映了样本中事件的频率,用来近似真实分布。它是非参数估计的重要工具,在统计推断、可视化和假设检验中有广泛应用。