卡方分布(Chi-square Distribution) 是一种常见的连续概率分布,在统计推断和数据分析中用途广泛,常用于卡方检验(Chi-square Test)、方差分析以及最大似然估计等多个方面。下文将从定义、性质、应用场景和注意事项四个维度对卡方分布进行介绍。
1. 卡方分布的定义
1.1 由正态分布衍生
若我们有
k
k
k 个相互独立的标准正态随机变量
Z
1
,
Z
2
,
.
.
.
,
Z
k
Z_1, Z_2, ..., Z_k
Z1,Z2,...,Zk(即
Z
i
∼
N
(
0
,
1
)
Z_i \sim N(0,1)
Zi∼N(0,1) 且彼此独立),那么下式定义的随机变量
X
X
X
X
=
∑
i
=
1
k
Z
i
2
X = \sum_{i=1}^{k} Z_i^2
X=i=1∑kZi2
就服从自由度为
k
k
k 的卡方分布(Chi-square Distribution),记为
X
∼
χ
2
(
k
)
.
X \sim \chi^2(k).
X∼χ2(k).
- “自由度”(Degrees of Freedom, DOF)在卡方分布中是一个正整数 k k k,决定了其分布形状。
1.2 基本性质
- 非负性: X ≥ 0 X \ge 0 X≥0。
- 偏态:分布通常是右偏(正偏),当自由度 k k k 较大时形状逐渐近似正态分布。
- 期望与方差:
E [ X ] = k , V a r ( X ) = 2 k . \mathbb{E}[X] = k, \quad \mathrm{Var}(X) = 2k. E[X]=k,Var(X)=2k. - 分布形状:随 k k k 增加,分布峰值往右移动且变得更接近对称。
2. 卡方分布的应用场景
2.1 卡方检验(Chi-square Test)
- 独立性检验:在列联表中检验两个分类变量是否独立;
- 适配度检验(Goodness-of-Fit):检验观测分布与理论分布是否显著偏离;
- 配对比较或频数分布检验:如多分类特征与目标频次的差异等。
2.2 方差分析与推断
- 在高斯假设下,样本方差(如
σ
^
2
\hat{\sigma}^2
σ^2) 与卡方分布密切相关:
( n − 1 ) σ ^ 2 σ 2 ∼ χ 2 ( n − 1 ) . \frac{(n-1)\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-1). σ2(n−1)σ^2∼χ2(n−1).
这在构造方差区间估计或假设检验时非常重要。
2.3 最大似然估计与统计建模
- 在一些统计模型中(如正态假设下的回归模型、协方差结构分析等),卡方分布用于构造似然比检验(Likelihood Ratio Test)的检验统计量,并判断模型拟合优度等。
2.4 其他
- 热力学、随机过程 等研究中,卡方分布也会出现,如观测许多独立高斯变量能量平方和的分布等。
3. 卡方分布的概率密度函数(PDF)
卡方分布的 PDF 对应自由度 k k k 为:
f χ 2 ( x ; k ) = { 1 2 k / 2 Γ ( k / 2 ) x k 2 − 1 e − x / 2 , x > 0 , 0 , otherwise . f_{\chi^2}(x;k) = \begin{cases} \displaystyle \frac{1}{2^{k/2}\Gamma(k/2)} \, x^{\frac{k}{2}-1} e^{-x/2}, & x > 0, \\ 0, & \text{otherwise}. \end{cases} fχ2(x;k)=⎩ ⎨ ⎧2k/2Γ(k/2)1x2k−1e−x/2,0,x>0,otherwise.
其中 Γ ( ⋅ ) \Gamma(\cdot) Γ(⋅) 是伽马函数(Gamma Function)。当 k k k 为正整数时, Γ ( k / 2 ) \Gamma(k/2) Γ(k/2) 与阶乘(或半整数阶乘)有具体对应关系。
4. 注意事项
- 自由度
- 卡方分布的形态和参数推断都依赖于自由度 k k k;需要结合具体检验或方差估计来确定。
- 近似正态
- 当 k k k 较大时(一般 k > 30 k>30 k>30 或更大),卡方分布会呈近似正态分布(中心在 k k k、方差约 2 k 2k 2k)。
- 右偏/长尾
- 当自由度较小(尤其 k < 2 k<2 k<2)时,分布非常偏,容易出现较大上尾概率。
- 配合 F 分布、t 分布
- 卡方分布常与 t 分布、F 分布一起构成统计推断的三大分布系列,三者之间也有明确的关系(如 t t t 分布可视为卡方与正态分布的组合, F F F 分布可看作两个卡方分布比值的变换)。
5. 小结
- 卡方分布( χ 2 \chi^2 χ2) 源自对若干独立标准正态变量平方和的研究,具有非负、偏态等特征。
- 关键应用:卡方检验(独立性、适配度等)、方差分析、似然比检验等。
- 参数:唯一参数是自由度 k k k,直接影响分布形状和统计推断。
- 统计意义:在很多经典统计方法中(如列联表分析、方差估计等),卡方分布提供了构造检验统计量的基础,有助于评估样本数据与理论假设的差异程度。
从应用角度看,卡方分布是现代统计学和数据分析中的重要支柱之一,广泛体现在假设检验、模型拟合优度、方差推断以及多维数据分析等领域。