误差的性质
在回归模型中,误差项通常被假设为:
- 独立性:误差项彼此独立。
- 同分布:误差项服从相同的分布。
- 满足高斯分布:误差项服从正态分布,记作 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim \mathcal{N}(0, \sigma^2) ε∼N(0,σ2),其中误差的均值为0,方差为 σ 2 \sigma^2 σ2。
公式:
ε ∼ N ( 0 , σ 2 ) \varepsilon \sim \mathcal{N}(0, \sigma^2) ε∼N(0,σ2)
误差满足高斯分布的意义
- 独立性:每个样本的误差是随机且独立的,彼此不相关。
- 同分布:所有样本的误差具有相同的概率分布。
- 高斯分布:误差服从高斯分布,这为模型的参数估计提供了理论支持,使得模型具有良好的统计性质。
方差与标准差的区别
- 方差 σ 2 \sigma^2 σ2 用于描述误差的离散程度,通常在数学推导和模型计算时使用。
- 标准差 σ \sigma σ 用于解释结果时,因其单位与原始数据一致,直观且易于理解。
什么是高斯分布?
高斯分布(也称为正态分布)是统计学中最常见、最重要的一种概率分布,通常用来描述自然现象中的数据分布。高斯分布的概率密度函数呈现一个对称的钟形曲线,亦称钟形曲线。
高斯分布的公式
高斯分布的概率密度函数(PDF)定义如下:
f ( x ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} f(x)=2πσ21e−2σ2(x−μ)2
其中:
-
μ \mu μ 表示均值,表示分布的中心位置。
-
σ 2 \sigma^2 σ2 表示方差,即数据的离散程度,决定了曲线的宽窄。
-
e e e 是自然常数,约等于 2.718。
高斯分布的特点
- 对称性:高斯分布是关于均值 μ \mu μ 对称的,左右两侧的概率密度是相等的,说明数据点偏离均值的概率在两个方向上是相同的。
- 均值和方差的作用:
- 均值 μ \mu μ 是分布的中心,决定了数据集中在哪个值附近。
- 方差 σ 2 \sigma^2 σ2 表示数据的分散程度,方差越大,分布越宽,曲线越平缓;方差越小,分布越窄,曲线越陡峭。
- 68-95-99.7 规则:在高斯分布中,有一个重要的经验法则:
- 68% 的数据落在 μ ± σ \mu \pm \sigma μ±σ 的范围内;
- 95% 的数据落在 μ ± 2 σ \mu \pm 2\sigma μ±2σ 的范围内;
- 99.7% 的数据落在 μ ± 3 σ \mu \pm 3\sigma μ±3σ 的范围内。
高斯分布的应用
高斯分布广泛应用于许多领域,如:
- 自然现象:人的身高、体重等数据通常服从近似高斯分布。
- 工业产品:生产误差的分布通常是高斯分布。
- 金融市场:股票价格的波动在一定时间段内近似服从高斯分布。
此外,中心极限定理表明,多个独立同分布随机变量的平均值趋于高斯分布,这也是高斯分布在统计学中广泛应用的基础。