卡方分布学习笔记
卡方分布(Chi-Square Distribution)是一种概率分布,常用于假设检验、方差分析等统计推断中。在实际应用中,我们会经常遇到卡方分布,因此有必要对其进行深入了解。
基本定义
-
自由度(degree of freedom):卡方分布的自由度表示随机变量的个数减1。
-
概率密度函数: f ( x ) = x m 2 − 1 e − x 2 2 m 2 Γ ( m 2 ) f(x) = \frac{x^{\frac{m}{2}-1}e^{-\frac{x}{2}}}{2^\frac{m}{2}\Gamma(\frac{m}{2})} f(x)=22mΓ(2m)x2m−1e−2x
其中, m m m表示自由度, Γ ( m 2 ) \Gamma(\frac{m}{2}) Γ(2m)表示伽玛函数,满足 Γ ( n ) = ( n − 1 ) ! \Gamma(n)=(n-1)! Γ(n)=(n−1)!。 -
分布函数: F ( x ) = γ ( m 2 , x 2 ) Γ ( m 2 ) F(x)=\frac{\gamma(\frac{m}{2},\frac{x}{2})}{\Gamma(\frac{m}{2})} F(x)=Γ(2m)γ(2m,2x)
其中, γ ( s , x ) \gamma(s,x) γ(s,x)表示下不完全伽玛函数,定义为:
γ ( s , x ) = ∫ 0 x t s − 1 e − t d t \gamma(s,x)=\int_0^xt^{s-1}e^{-t}dt γ(s,x)=∫0xts−1e−tdt
性质
- 当自由度 m m m很大时,卡方分布近似服从正态分布。
- 卡方分布是非负的,且右偏。
- 卡方分布的期望为 m m m,方差为 2 m 2m 2m。
假设检验
卡方分布在假设检验中有着广泛应用。一般地,若要检验一个事件是否遵循某种理论分布,则可以使用卡方检验(Chi-Square Test)。具体步骤如下:
- 根据样本数据计算出频数 f i ( i = 1 , 2 , . . . , k ) f_i(i=1,2,...,k) fi(i=1,2,...,k)。
- 计算出每个类别的期望频数 e i e_i ei(即符合理论分布的样本数量)。
- 计算 χ 2 = ∑ i = 1 k ( f i − e i ) 2 e i \chi^2=\sum_{i=1}^k\frac{(f_i-e_i)^2}{e_i} χ2=∑i=1kei(fi−ei)2。
- 对于显著性水平为 α \alpha α的假设检验,如果 χ 2 > χ 1 − α , k − 1 2 \chi^2>\chi_{1-\alpha,k-1}^2 χ2>χ1−α,k−12,则拒绝原假设;否则接受原假设。
其中, χ 1 − α , k − 1 2 \chi_{1-\alpha,k-1}^2 χ1−α,k−12表示自由度为 k − 1 k-1 k−1、右侧面积为 1 − α 1-\alpha 1−α的卡方分位数。
使用示例
下面是使用Python代码生成自由度为 m m m的卡方分布随机变量的示例:
import numpy as np
from scipy.stats import chi2
m = 10
rv = chi2(df=m)
x = np.linspace(0, 20, 1000)
y = rv.pdf(x)
import matplotlib.pyplot as plt
plt.plot(x, y)
plt.title("Chi-Square Distribution (m={})".format(m))
plt.xlabel("X")
plt.ylabel("Probability Density")
plt.show()
总结
本篇博客介绍了卡方分布的基本定义、性质、假设检验以及使用示例。希望可以对读者在统计推断中遇到卡方分布有所帮助。