抽样分布
下述抽样分布为整合来自不同总体的样本构建出统计量,统计量的分布。主要应注意这些抽样分布的基本概念,可用于建模。详细论证过程和具体的密度函数、分布函数则先不用关注。
卡方分布(Chi-squared Distribution)
- 基本概念:设
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn均为来自标准正态总体
N
(
0
,
1
)
N(0,1)
N(0,1)的样本,则统计量:
χ 2 = X 1 2 + X 2 2 + ⋯ + X n 2 ∼ χ 2 ( n ) \chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2 \sim \chi^2(n) χ2=X12+X22+⋯+Xn2∼χ2(n)称统计量 χ 2 \chi^2 χ2服从自由度为n的卡方分布,常表示为 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ2∼χ2(n)。 - 基本性质:
- 期望: E ( χ 2 ) = n E(\chi^2) = n E(χ2)=n
- 方差: D ( χ 2 ) = 2 n D(\chi^2) = 2n D(χ2)=2n
- 其他:
- 往往可以将非标准正态总体的样本标准化后构建统计量;
- 卡方分布即为一种伽马分布: Γ ( n 2 , 2 ) = χ 2 ( n ) \Gamma(\frac{n}{2}, 2) = \chi^2(n) Γ(2n,2)=χ2(n)
- 与伽马分布一样,卡方分布具有可加性。即若 χ 1 2 , χ 2 2 , … , χ m 2 \chi_1^2,\chi_2^2,\ldots,\chi_m^2 χ12,χ22,…,χm2相互独立,且均服从卡方分布, χ i 2 ∼ χ 2 ( n i ) \chi_i^2 \sim \chi^2(n_i) χi2∼χ2(ni)。那么它们的和也服从卡方分布: Z = χ 1 2 + χ 2 2 + … + χ m 2 ∼ χ 2 ( n 1 + n 2 + ⋯ + n m ) Z=\chi_1^2+\chi_2^2+\ldots+\chi_m^2 \sim \chi^2(n_1+n_2+\cdots+n_m) Z=χ12+χ22+…+χm2∼χ2(n1+n2+⋯+nm);
- 四大定理之一:设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn为来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的一个样本, X ˉ \bar{X} Xˉ为样本均值, S 2 S^2 S2为样本方差,有: ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ2(n−1)S2∼χ2(n−1)
- R中对应函数:
- dchisq(x, df, ncp = 0, log = FALSE)
- pchisq(q, df, ncp = 0, lower.tail = TRUE, log.p = FALSE)
- qchisq(p, df, ncp = 0, lower.tail = TRUE, log.p = FALSE)
- rchisq(n, df, ncp = 0)
其中df即为自由度n。
学生t分布(Student t Distribution)
- 基本概念:设
X
∼
N
(
0
,
1
)
X \sim N(0,1)
X∼N(0,1),
Y
∼
χ
2
(
n
)
Y \sim \chi^2(n)
Y∼χ2(n),且X和Y互相独立,则统计量:
t = X Y / n ∼ t ( n ) t = \frac{X}{\sqrt{Y/n}} \sim t(n) t=Y/nX∼t(n)称统计量 t t t服从自由度为n的学生t分布,常表示为 t ∼ t ( n ) t \sim t(n) t∼t(n)。 - 基本性质:
- 期望: E ( t ) = 0 E(t) = 0 E(t)=0
- 方差: D ( t ) = n / ( n − 2 ) D(t) = n/(n-2) D(t)=n/(n−2)
- 其他:
- n越大,学生t分布越近似于标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1);
- 四大定理之一:设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn为来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的一个样本, X ˉ \bar{X} Xˉ为样本均值, S 2 S^2 S2为样本方差,有: X ˉ − μ S / n ∼ t ( n − 1 ) \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1) S/nXˉ−μ∼t(n−1)
- R中对应函数:
- dt(x, df, ncp, log = FALSE)
- pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE)
- qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)
- rt(n, df, ncp)
其中df即为自由度n。
F分布(F Distribution)
- 基本概念:设
U
∼
χ
2
(
n
1
)
U \sim \chi^2(n_1)
U∼χ2(n1),
V
∼
χ
2
(
n
2
)
V \sim \chi^2(n_2)
V∼χ2(n2),且U和V互相独立,则统计量:
F = U / n 1 V / n 2 ∼ F ( n 1 , n 2 ) F = \frac{U/n_1}{V/n_2} \sim F(n_1,n_2) F=V/n2U/n1∼F(n1,n2)称统计量 F F F服从自由度为 ( n 1 , n 2 ) (n_1,n_2) (n1,n2)的F分布,常表示为 F ∼ F ( n 1 , n 2 ) F \sim F(n_1,n_2) F∼F(n1,n2)。 - 基本性质:
- 期望: E ( F ) = n 2 / ( n 2 − 2 ) E(F) = n_2/(n_2-2) E(F)=n2/(n2−2)
- 方差: D ( F ) = 2 n 2 2 ( n 1 + n 2 − 2 ) / n 1 ( n 2 − 2 ) 2 ( n 2 − 4 ) D(F) =2 n_{2}^{2\left(n_{1}+n_{2}-2\right)} / n_{1}\left(n_{2}-2\right)^{2\left(n_{2}-4\right)} D(F)=2n22(n1+n2−2)/n1(n2−2)2(n2−4)
- 其他:
- 若 F ∼ F ( n 1 , n 2 ) F \sim F(n_1,n_2) F∼F(n1,n2),则F的倒数 1 / F ∼ F ( n 2 , n 1 ) 1/F \sim F(n_2,n_1) 1/F∼F(n2,n1);
- 四大定理之一:设 X 1 , X 2 , ⋯ , X n 1 X_1,X_2,\cdots,X_{n1} X1,X2,⋯,Xn1为来自正态总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12)的一个样本, Y 1 , Y 2 , ⋯ , Y n 2 Y_1,Y_2,\cdots,Y_{n2} Y1,Y2,⋯,Yn2为来自正态总体 N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma_2^2) N(μ2,σ22)的一个样本, S 1 2 , S 2 2 S_1^2,S_2^2 S12,S22为样本方差,有: S 1 2 / S 2 2 σ 1 2 / σ 2 2 ∼ F ( n 1 , n 2 ) \frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} \sim F(n_1,n_2) σ12/σ22S12/S22∼F(n1,n2)
- R中对应函数:
- df(x, df1, df2, ncp, log = FALSE)
- pf(q, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
- qf(p, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
- rf(n, df1, df2, ncp)
其中df1,df2即为自由度n1,n2。