八、样本及抽样分布
8.1 总体与样本
-
总体:个体、总体分布
-
样本:抽样、样本变量、样本观测值
-
抽样:简单随机抽样【独立同分布】
-
样本的分布:
变量: ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)
分布: F ( x 1 , x 2 , . . . , x n ) = F ( x 1 ) F ( x 2 ) ⋅ ⋅ ⋅ F ( x n ) F(x_1,x_2,...,x_n)=F(x_1)F(x_2)···F(x_n) F(x1,x2,...,xn)=F(x1)F(x2)⋅⋅⋅F(xn)
离散型: P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = P ( X 1 = x 1 ) P ( X 2 = x 2 ) ⋅ ⋅ ⋅ P ( X n = x n ) P(X_1=x_1,X_2=x_2,...,X_n=x_n)=P(X_1=x_1)P(X_2=x_2)···P(X_n=x_n) P(X1=x1,X2=x2,...,Xn=xn)=P(X1=x1)P(X2=x2)⋅⋅⋅P(Xn=xn)
概率密度函数: f ( x 1 , x 2 , . . . , x n ) = f ( x 1 ) f ( x 2 ) ⋅ ⋅ ⋅ f ( x n ) f(x_1,x_2,...,x_n)=f(x_1)f(x_2)···f(x_n) f(x1,x2,...,xn)=f(x1)f(x2)⋅⋅⋅f(xn)
8.2 统计量
定义: 不含任何未知参数的样本函数
常见统计量
- 样本均值: X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i X=n1∑i=1nXi
- 未修正的样本方差: S 0 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 S_0^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^2 S02=n1∑i=1n(Xi−X)2
- 样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = n n − 1 S 0 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2=\frac{n}{n-1}S_0^2 S2=n−11∑i=1n(Xi−X)2=n−1nS02
- 样本标准差
- 样本k阶原点矩: A k = 1 n ∑ i = 1 n X i k A_k=\frac{1}{n}\sum_{i=1}^nX_i^k Ak=n1∑i=1nXik
- 样本k阶中心矩: B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k Bk=n1∑i=1n(Xi−X)k
- 协方差
- 相关系数
8.3 样本均值和方差
总体 X X X的均值 E X = μ EX=\mu EX=μ,方差 D X = σ 2 DX=\sigma^2 DX=σ2,样本 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)来自总体 X X X,则
- E X ‾ = μ E\overline{X}=\mu EX=μ
- D X ‾ = 1 n σ 2 D\overline{X}=\frac{1}{n}\sigma^2 DX=n1σ2
- E S 2 = σ 2 ES^2=\sigma^2 ES2=σ2
8.4 抽样分布
统计量的分布
8.4.1 χ 2 \chi^2 χ2分布
n n n 越大,峰谷越向右移动,在n-2时取最大值
定理: X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 相互独立, X i ∼ N ( 0 , 1 ) X_i \sim N(0,1) Xi∼N(0,1) ⟹ \Longrightarrow ⟹ ∑ i = 1 n X i 2 ∼ χ 2 ( n ) = Γ ( n 2 , n ) \sum_{i=1}^nX_i^2 \sim \chi^2(n) =\Gamma(\frac{n}{2},n) ∑i=1nXi2∼χ2(n)=Γ(2n,n)
由中心极限定理: X ∼ χ 2 ( n ) , n X\sim \chi^2(n),n X∼χ2(n),n 充分大, X − n 2 n ∼ N ( 0 , 1 ) \frac{X-n}{\sqrt{2n}}\sim N(0,1) 2nX−n∼N(0,1)
性质:
- X ∼ χ 2 ( n ) , Y ∼ χ 2 ( m ) , X 与 Y 独 立 , 则 : X + Y ∼ χ 2 ( m + n ) X \sim \chi^2(n),Y\sim \chi^2(m),X与Y独立,则:X+Y \sim \chi^2(m+n) X∼χ2(n),Y∼χ2(m),X与Y独立,则:X+Y∼χ2(m+n)
- X i ∼ χ 2 ( m i ) ⟹ ∑ i = 1 n X i ∼ χ 2 ( ∑ i = 1 n m i ) X_i \sim \chi^2(m_i) \Longrightarrow \sum_{i=1}^n X_i\sim \chi^2(\sum_{i=1}^n m_i) Xi∼χ2(mi)⟹∑i=1nXi∼χ2(∑i=1nmi)
上 α \alpha α分位数: P ( χ 2 > χ α 2 ( n ) ) = α P(\chi^2>\chi^2_\alpha(n))=\alpha P(χ2>χα2(n))=α
【 χ α 2 ( n ) \chi^2_\alpha(n) χα2(n)是一个点, α \alpha α是面积,整体表示大于 χ α 2 ( n ) \chi^2_\alpha(n) χα2(n)这个点的面积是 α \alpha α】
8.4.2 t分布
n ≥ 30 n\geq 30 n≥30与正态分布差别很小,t分布对称性
定理: X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X \sim N(0,1) , Y\sim\chi^2(n) X∼N(0,1),Y∼χ2(n),且 X , Y X,Y X,Y独立,则 t = X Y / n ∼ t ( n ) t=\frac{X}{\sqrt{Y/n}}\sim t(n) t=Y/nX∼t(n)
t分布的上 α \alpha α分位数: P ( t > t α ( n ) ) = α P(t>t_{\alpha}(n))=\alpha P(t>tα(n))=α 对称性 ⟹ \Longrightarrow ⟹ t 1 − α ( n ) = − t α ( n ) t_{1-\alpha}(n)=-t_{\alpha}(n) t1−α(n)=−tα(n)
8.4.3 F分布
定理: X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) , X 与 Y 独 立 X\sim \chi^2(n_1),Y\sim \chi^2(n_2),X与Y独立 X∼χ2(n1),Y∼χ2(n2),X与Y独立,则 F = X / n 1 Y / n 2 ∼ F ( n 1 , n 2 ) F=\frac{X/n_1}{Y/n_2}\sim F(n_1,n_2) F=Y/n2X/n1∼F(n1,n2)
【 1 F ∼ F ( n 2 , n 1 ) \frac{1}{F}\sim F(n_2,n_1) F1∼F(n2,n1)】
F分布的上 α \alpha α分位数: P ( F > F α ( n 1 , n 2 ) = α ) P(F>F_{\alpha}(n_1,n_2)=\alpha) P(F>Fα(n1,n2)=α) ⟹ \Longrightarrow ⟹ F 1 − α ( n 1 , n 2 ) = 1 F α ( n 2 , n 1 ) F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)} F1−α(n1,n2)=Fα(n2,n1)1
8.4.4 正态总体下的抽样分布
总体是正态分布,抽取样本后构造的统计量的分布
定理1:【一个正态总体】 X ∼ N ( μ , σ 2 ) , { X 1 , X 2 , . . . , X n } X\sim N(\mu,\sigma^2),\{X_1,X_2,...,X_n\} X∼N(μ,σ2),{X1,X2,...,Xn}是来自 X X X的一个样本, 样本均值: X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i X=n1∑i=1nXi , 样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 S2=n−11∑i=1n(Xi−X)2
-
X ‾ ∼ N ( μ , σ 2 n ) ⟹ X ‾ − μ σ n ∼ N ( 0 , 1 ) \overline{X}\sim N(\mu,\frac{\sigma^2}{n}) \Longrightarrow \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1) X∼N(μ,nσ2)⟹nσX−μ∼N(0,1)
-
( n − 1 ) S 2 σ 2 = ∑ i = 1 n ( X i − X ‾ ) 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} = \frac{\sum_{i=1}^n(X_i-\overline{X})^2}{\sigma^2}\sim \chi^2(n-1) σ2(n−1)S2=σ2∑i=1n(Xi−X)2∼χ2(n−1)
-
X ‾ 与 S \overline{X}与S X与S独立
-
∑ i = 1 n ( X i − μ ) 2 σ 2 ∼ χ 2 ( n ) \frac{\sum_{i=1}^n(X_i-\mu)^2}{\sigma^2}\sim \chi^2(n) σ2∑i=1n(Xi−μ)2∼χ2(n)
-
X ‾ − μ S n ∼ t ( n − 1 ) \frac{\overline{X}-\mu}{S}\sqrt{n} \sim t(n-1) SX−μn∼t(n−1)
定理2:【两个正态总体】 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2) X∼N(μ1,σ12),Y∼N(μ2,σ22) { X 1 , X 2 , . . . , X n 1 } \{X_1,X_2,...,X_{n_1}\} {X1,X2,...,Xn1}来自 X X X,样本均值是 X ‾ \overline{X} X,样本方差是 S 1 2 S_1^2 S12, { Y 1 , Y 2 , . . . , Y n 2 } \{Y_1,Y_2,...,Y_{n_2}\} {Y1,Y2,...,Yn2}来自 Y Y Y,样本均值是 Y ‾ \overline{Y} Y,样本方差是 S 2 2 S_2^2 S22
- ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1) n1σ12+n2σ22(X−Y)−(μ1−μ2)∼N(0,1)
【 X ‾ ∼ N ( μ 1 , σ 1 2 n 1 ) , Y ‾ ∼ N ( μ 2 , σ 2 2 n 2 ) , X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \overline{X}\sim N(\mu_1,\frac{\sigma_1^2}{n_1}),\overline{Y}\sim N(\mu_2,\frac{\sigma_2^2}{n_2}),\overline{X}-\overline{Y}\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) X∼N(μ1,n1σ12),Y∼N(μ2,n2σ22),X−Y∼N(μ1−μ2,n1σ12+n2σ22)】
-
S 1 2 / σ 1 2 S 2 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1) S22/σ22S12/σ12∼F(n1−1,n2−1)
-
σ 1 2 = σ 2 2 = σ 2 时 \sigma_1^2=\sigma_2^2=\sigma^2时 σ12=σ22=σ2时, ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2) Swn11+n21(X−Y)−(μ1−μ2)∼t(n1+n2−2) 其中, S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} Sw2=n1+n2−2(n1−1)S12+(n2−1)S22
九、参数估计
参数空间:参数取值范围
9.1 点估计
θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta} =\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn)
9.1.1 矩估计
用样本的矩代替整体的矩
阶
数
总
体
的
矩
样
本
的
矩
一
阶
E
X
X
‾
=
1
n
∑
X
i
二
阶
E
X
2
A
2
=
1
n
∑
X
i
2
\begin{array}{c|c|c} \hline 阶数 & 总体的矩 & 样本的矩 \\\hline 一阶 & EX & \overline{X}=\frac{1}{n}\sum X_i \\ 二阶 & EX^2 & A_2=\frac{1}{n}\sum X_i^2 \\ \hline \end{array}
阶数一阶二阶总体的矩EXEX2样本的矩X=n1∑XiA2=n1∑Xi2
二阶:【
D
X
=
E
X
2
−
(
E
X
)
2
DX=EX^2-(EX)^2
DX=EX2−(EX)2】
二阶中心矩: B 2 = 1 n ∑ ( X i − X ‾ ) 2 B_2=\frac{1}{n}\sum (X_i-\overline{X})^2 B2=n1∑(Xi−X)2
X ∼ N ( μ , σ 2 ) , μ 和 σ 2 未 知 , 则 μ ^ = X ‾ , σ 2 ^ = 1 n ∑ ( X i − X ‾ ) 2 = B 2 X \sim N(\mu,\sigma^2),\mu和\sigma^2未知,则\hat{\mu}=\overline{X},\hat{\sigma^2}=\frac{1}{n}\sum (X_i-\overline{X})^2=B_2 X∼N(μ,σ2),μ和σ2未知,则μ^=X,σ2^=n1∑(Xi−X)2=B2
9.1.2 极大似然估计
概率大的事件比概率小的事件更容易发生,将使A发生的概率最大的参数值作为估计值。
例题:
总体 X ∼ p ( λ ) , ( X 1 , X 2 , . . . , X n ) X\sim p(\lambda),(X_1,X_2,...,X_n) X∼p(λ),(X1,X2,...,Xn)为样本,求 λ \lambda λ的极大似然估计
解:
总体的概率密度函数 P ( X = k ) = λ k k ! e − λ ( k = 0 , 1 , 2 , . . . ) P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}(k=0,1,2,...) P(X=k)=k!λke−λ(k=0,1,2,...)
则 λ \lambda λ的极大似然函数为: L ( λ ) = ∏ i = 1 n λ x i x i ! e − λ = λ x 1 + x 2 + . . . + x n ∏ i = 1 n x i ! e − n λ L(\lambda)=\prod_{i=1}^n\frac{\lambda^{x_i}}{{x_i}!}e^{-\lambda}=\frac{\lambda^{x_1+x_2+...+x_n}}{\prod_{i=1}^nx_i!}e^{-n\lambda} L(λ)=∏i=1nxi!λxie−λ=∏i=1nxi!λx1+x2+...+xne−nλ 【 x i x_i xi 为已知的观测值】
两边取 l n ln ln: l n L ( λ ) = ( x 1 + x 2 + . . . + x n ) l n λ − n λ − ∏ i = 1 n x i ! lnL(\lambda)=(x_1+x_2+...+x_n)ln\lambda-n\lambda-\prod_{i=1}^nx_i! lnL(λ)=(x1+x2+...+xn)lnλ−nλ−∏i=1nxi!
两边对 λ \lambda λ求导: d l n ( λ ) d λ = x 1 + x 2 + . . . + x n λ − n = 0 \frac{dln(\lambda)}{d\lambda}=\frac{x_1+x_2+...+x_n}{\lambda}-n=0 dλdln(λ)=λx1+x2+...+xn−n=0
λ ^ = x 1 + x 2 + . . . + x n n = X ‾ \hat{\lambda}=\frac{x_1+x_2+...+x_n}{n}=\overline{X} λ^=nx1+x2+...+xn=X
解题步骤:
- 写出总体的概率函数【离散】、密度函数【连续】
- 写出似然函数 L ( λ ) L(\lambda) L(λ)
- 两边取 l n L ( λ ) lnL(\lambda) lnL(λ)
- 两边对 λ \lambda λ求导【偏导】,令导数【偏导】等于0
9.2 点估计的优良性准则
9.2.1 无偏性
E θ ^ = θ E\hat{\theta}=\theta Eθ^=θ
总体 X , E X = μ , D X = σ 2 , ( X 1 , X 2 , . . . , X n ) X,EX=\mu,DX=\sigma^2,(X_1,X_2,...,X_n) X,EX=μ,DX=σ2,(X1,X2,...,Xn)
- X ‾ 是 μ 的 无 偏 估 计 , E X ‾ = μ \overline{X}是\mu的无偏估计,E\overline{X}=\mu X是μ的无偏估计,EX=μ
- 样 本 方 差 S 2 是 σ 2 的 无 偏 估 计 , E S 2 = σ 2 样本方差S^2是\sigma^2的无偏估计,ES^2=\sigma^2 样本方差S2是σ2的无偏估计,ES2=σ2
- 未 修 正 方 差 S 0 2 是 σ 2 的 有 偏 估 计 未修正方差S_0^2是\sigma^2的有偏估计 未修正方差S02是σ2的有偏估计
θ ^ 是 θ 的 无 偏 估 计 , 但 是 g ( θ ^ ) 不 一 定 是 g ( θ ) 的 无 偏 估 计 \hat{\theta}是\theta的无偏估计,但是g(\hat{\theta})不一定是g(\theta)的无偏估计 θ^是θ的无偏估计,但是g(θ^)不一定是g(θ)的无偏估计【 样 本 方 差 S 2 是 σ 2 的 无 偏 估 计 , 但 是 S 2 不 是 σ 2 的 无 偏 估 计 样本方差S^2是\sigma^2的无偏估计,但是\sqrt{S^2}不是\sqrt{\sigma^2}的无偏估计 样本方差S2是σ2的无偏估计,但是S2不是σ2的无偏估计】
9.2.2 有效性
D ( θ ^ 1 ) ≤ D ( θ ^ 2 ) D({\hat{\theta}_1})\leq D(\hat{\theta}_2) D(θ^1)≤D(θ^2),方差越小越好
9.2.3 一致性
l i m n → + ∞ P ( ∣ θ ^ − θ ∣ < ε ) = 1 lim_{n\rightarrow{+\infty}}P(|\hat{\theta}-\theta|<\varepsilon)=1 limn→+∞P(∣θ^−θ∣<ε)=1 【样本数目n越多,估计值与真实值的距离越小】
9.3 区间估计
9.3.1 置信区间
区间长度、以概率p落在这个区域
P ( θ ^ 1 ≤ θ ≤ θ ^ 2 ) = 1 − α P(\hat{\theta}_1\leq\theta\leq \hat{\theta}_2)=1-\alpha P(θ^1≤θ≤θ^2)=1−α 【 1 − α : 置 信 度 ; [ θ ^ 1 , θ ^ 2 ] 1-\alpha:置信度;[\hat{\theta}_1,\hat{\theta}_2] 1−α:置信度;[θ^1,θ^2]:置信区间】
【 [ θ ^ 1 , θ ^ 2 ] [\hat{\theta}_1,\hat{\theta}_2] [θ^1,θ^2]能套 θ \theta θ的概率】
枢轴变量
- F = I ( T , θ ) F=I(T,\theta) F=I(T,θ)【 θ \theta θ未知, T T T已知,分布 F F F已知且与 θ \theta θ无关】 ⟹ \Longrightarrow ⟹ 枢轴变量
- 给定 1 − α 1-\alpha 1−α,确定F的上 α 2 \frac{\alpha}{2} 2α分位数 V α 2 V_{\frac{\alpha}{2}} V2α,上 ( 1 − α 2 ) (1-\frac{\alpha}{2}) (1−2α)分位数 V 1 − α 2 V_{1-\frac{\alpha}{2}} V1−2α, P ( V 1 − α 2 ≤ F ( T , θ ) ≤ V α 2 ) = 1 − α P({V_{1-\frac{\alpha}{2}}}\leq F(T,\theta)\leq V_{\frac{\alpha}{2}})=1-\alpha P(V1−2α≤F(T,θ)≤V2α)=1−α
9.4 正态总体均值和方差的区间估计
9.4.1 一个总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
(1) σ 2 \sigma^2 σ2已知,估计 μ \mu μ
构造: U = X ‾ − μ σ / n ∼ N ( 0 , 1 ) U=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) U=σ/nX−μ∼N(0,1),给定 1 − α 1-\alpha 1−α,令 P ( U > U α 2 ) = α 2 , Φ 0 ( α 2 ) = 1 − Φ 0 ( α 2 ) P(U>U_\frac{\alpha}{2})=\frac{\alpha}{2},\Phi_0(\frac{\alpha}{2})=1-\Phi_0(\frac{\alpha}{2}) P(U>U2α)=2α,Φ0(2α)=1−Φ0(2α)
则: P ( − U α 2 ≤ X ‾ − μ σ / n ≤ U α 2 ) = 1 − α P(-U_{\frac{\alpha}{2}}\leq \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \leq U_{\frac{\alpha}{2}})=1-\alpha P(−U2α≤σ/nX−μ≤U2α)=1−α ⟹ \Longrightarrow ⟹ P ( X ‾ − U α 2 ⋅ σ n ≤ μ ≤ X ‾ + U α 2 ⋅ σ n ) = 1 − α P(\overline{X}-\frac{U_{\frac{\alpha}{2}}·\sigma}{\sqrt{n}}\leq \mu \leq \overline{X}+\frac{U_{\frac{\alpha}{2}}·\sigma}{\sqrt{n}})=1-\alpha P(X−nU2α⋅σ≤μ≤X+nU2α⋅σ)=1−α
(2) σ 2 \sigma^2 σ2未知,估计 μ \mu μ
构造: T = X ‾ − μ S / n ∼ t ( n − 1 ) T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) T=S/nX−μ∼t(n−1) 【S:样本标准差】
则: P ( − t α 2 ( n − 1 ) ≤ X ‾ − μ S / n ≤ t α 2 ( n − 1 ) ) = 1 − α P(-t_{\frac{\alpha}{2}}(n-1)\leq \frac{\overline{X}-\mu}{S/\sqrt{n}} \leq t_{\frac{\alpha}{2}}(n-1))=1-\alpha P(−t2α(n−1)≤S/nX−μ≤t2α(n−1))=1−α
(3) μ \mu μ已知,估计 σ 2 \sigma^2 σ2
χ 2 = 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 ∼ χ 2 ( n ) \chi^2=\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \sim \chi^2(n) χ2=σ21∑i=1n(Xi−μ)2∼χ2(n),给定 1 − α 1-\alpha 1−α, χ 1 − α 2 2 ( n ) \chi^2_{1-\frac{\alpha}{2}}(n) χ1−2α2(n), χ α 2 2 ( n ) \chi^2_{\frac{\alpha}{2}}(n) χ2α2(n)
⟹ \Longrightarrow ⟹ P ( χ 1 − α 2 2 ( n ) ≤ 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 ≤ χ α 2 2 ( n ) ) = 1 − α P(\chi^2_{1-\frac{\alpha}{2}}(n)\leq \frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \leq \chi^2_{\frac{\alpha}{2}}(n))=1-\alpha P(χ1−2α2(n)≤σ21∑i=1n(Xi−μ)2≤χ2α2(n))=1−α
(4) μ \mu μ未知,估计 σ 2 \sigma^2 σ2
χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) χ2=σ2(n−1)S2∼χ2(n−1), χ 1 − α 2 2 ( n − 1 ) \chi^2_{1-\frac{\alpha}{2}}(n-1) χ1−2α2(n−1), χ α 2 2 ( n ) \chi^2_{\frac{\alpha}{2}}(n) χ2α2(n)
⟹
\Longrightarrow
⟹
P
(
χ
1
−
α
2
2
(
n
−
1
)
≤
(
n
−
1
)
S
2
σ
2
≤
χ
α
2
2
(
n
−
1
)
)
=
1
−
α
P(\chi^2_{1-\frac{\alpha}{2}}(n-1)\leq \frac{(n-1)S^2}{\sigma^2} \leq \chi^2_{\frac{\alpha}{2}}(n-1))=1-\alpha
P(χ1−2α2(n−1)≤σ2(n−1)S2≤χ2α2(n−1))=1−α
估
计
条
件
构
造
函
数
置
信
区
间
μ
σ
2
已
知
U
=
X
‾
−
μ
σ
/
n
∼
N
(
0
,
1
)
[
X
‾
−
σ
⋅
U
α
2
n
,
X
‾
+
σ
⋅
U
α
2
n
]
μ
σ
2
未
知
T
=
X
‾
−
μ
S
/
n
∼
t
(
n
−
1
)
[
X
‾
−
S
n
t
α
2
(
n
−
1
)
n
,
X
‾
+
S
n
t
α
2
(
n
−
1
)
n
]
σ
2
μ
已
知
1
σ
2
∑
i
=
1
n
(
X
i
−
μ
)
2
∼
χ
2
(
n
)
[
∑
(
X
i
−
μ
)
2
χ
α
2
2
(
n
)
,
∑
(
X
i
−
μ
)
2
χ
1
−
α
2
2
(
n
)
]
σ
2
μ
未
知
(
n
−
1
)
S
2
σ
2
∼
χ
2
(
n
−
1
)
[
(
n
−
1
)
S
2
χ
α
2
2
(
n
−
1
)
,
(
n
−
1
)
S
2
χ
1
−
α
2
2
(
n
−
1
)
]
\begin{array}{c|c|c} \hline 估计 & 条件 & 构造函数 & 置信区间 \\\hline \mu & \sigma^2已知 & U=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) & [\overline{X}-\frac{\sigma·U_{\frac{\alpha}{2}}}{\sqrt{n}},\overline{X}+\frac{\sigma·U_{\frac{\alpha}{2}}}{\sqrt{n}}] \\ \mu & \sigma^2未知 & T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) & [\overline{X}-\frac{\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1)}{\sqrt{n}},\overline{X}+\frac{\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1)}{\sqrt{n}}] \\ \sigma^2 & \mu已知 &\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \sim \chi^2(n) & [\frac{\sum{(X_i-\mu)^2}}{\chi^2_{\frac{\alpha}{2}}(n)},\frac{\sum{(X_i-\mu)^2}}{\chi^2_{1-\frac{\alpha}{2}}(n)}] \\ \sigma^2 & \mu未知 & \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) & [\frac{(n-1)S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}]\\ \hline \end{array}
估计μμσ2σ2条件σ2已知σ2未知μ已知μ未知构造函数U=σ/nX−μ∼N(0,1)T=S/nX−μ∼t(n−1)σ21∑i=1n(Xi−μ)2∼χ2(n)σ2(n−1)S2∼χ2(n−1)置信区间[X−nσ⋅U2α,X+nσ⋅U2α][X−nnSt2α(n−1),X+nnSt2α(n−1)][χ2α2(n)∑(Xi−μ)2,χ1−2α2(n)∑(Xi−μ)2][χ2α2(n−1)(n−1)S2,χ1−2α2(n−1)(n−1)S2]
9.4.2 两个正态总体
X ∼ N ( μ 1 , σ 1 2 ) X \sim N(\mu_1,\sigma_1^2) X∼N(μ1,σ12) 样本 ( X 1 , X 2 , . . . , X n 1 ) (X_1,X_2,...,X_{n_1}) (X1,X2,...,Xn1) X ‾ , S 1 2 \overline{X},S_1^2 X,S12;
Y ∼ N ( μ 2 , σ 2 2 ) Y \sim N(\mu_2,\sigma^2_2) Y∼N(μ2,σ22) 样本 ( Y 1 , Y 2 , . . . , Y n 2 ) (Y_1,Y_2,...,Y_{n_2}) (Y1,Y2,...,Yn2) Y ‾ , S 2 2 \overline{Y},S_2^2 Y,S22
(1)均值差 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2的区间估计, σ 1 2 , σ 2 2 \sigma^2_1,\sigma^2_2 σ12,σ22已知
构造: X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \overline{X}-\overline{Y} \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) X−Y∼N(μ1−μ2,n1σ12+n2σ22)
⟹ \Longrightarrow ⟹ ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1) n1σ12+n2σ22(X−Y)−(μ1−μ2)∼N(0,1)
(2)均值差 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2的区间估计, σ 1 2 = σ 2 2 = σ 2 \sigma^2_1=\sigma^2_2=\sigma^2 σ12=σ22=σ2未知
构造: ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 2 n 2 ∼ t ( n 1 + n 2 − 2 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w \sqrt{\frac{1}{n_1}+\frac{1^2}{n_2}}} \sim t(n_1+n_2-2) Swn11+n212(X−Y)−(μ1−μ2)∼t(n1+n2−2)【 S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} Sw2=n1+n2−2(n1−1)S12+(n2−1)S22】
(3) σ 1 2 σ 2 2 \frac{\sigma^2_1}{\sigma^2_2} σ22σ12的区间估计, μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2未知
构造: F = S 1 2 / σ 1 2 S 2 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1) F=S22/σ22S12/σ12∼F(n1−1,n2−1)
十、假设检验
10.1 基础概念
统计推断:区间估计+假设检验
-
假设:总体的分布函数未知 { 类 型 未 知 ⟹ 非 参 数 假 设 参 数 未 知 ⟹ 参 数 假 设 \begin{cases}类型未知 \Longrightarrow 非参数假设 \\ 参数未知 \Longrightarrow 参数假设\end{cases} {类型未知⟹非参数假设参数未知⟹参数假设,对总体的分布函数进行假设
-
假设检验:检验假设成立与否【参数假设检验、非参数的假设检验】
-
假设检验问题: { 显 著 性 检 验 问 题 ⟹ 唯 一 假 设 H 0 H 0 对 H 1 的 假 设 检 验 问 题 \begin{cases} 显著性检验问题 \Longrightarrow 唯一假设H_0 \\ H_0对H_1的假设检验问题 \end{cases} {显著性检验问题⟹唯一假设H0H0对H1的假设检验问题提出原假设【不能轻易否定的假设】、备择假设
10.1.1 假设检验的基本思想和步骤
核心思想:小概率事件在一次试验中不易发生
思想:
-
构造统计量T【不含未知参数】,在 H 0 H_0 H0成立的条件下,T的分布已知
-
构造检验法则,找到小概率事件 P ( T ∈ I ) = α ( 小 ) P(T \in I)=\alpha(小) P(T∈I)=α(小)
⟹ \Longrightarrow ⟹ P { ( X 1 , X 2 , . . . , X n ) ∈ W } = α P\{(X_1,X_2,...,X_n)\in W\}=\alpha P{(X1,X2,...,Xn)∈W}=α ,则W是小概率事件,拒绝原假设, W W W是拒绝域
⟹ \Longrightarrow ⟹ P { ( X 1 , X 2 , . . . , X n ) ∈ W ‾ } = 1 − α P\{(X_1,X_2,...,X_n)\in \overline{W}\}=1-\alpha P{(X1,X2,...,Xn)∈W}=1−α,接受原假设, W ‾ \overline{W} W是接受域
步骤
- 提出原假设与备择假设
- 假定 H 0 H_0 H0成立,取统计量T,T的分布已知
- 对于给定的 α \alpha α找到拒绝域和接受域
- 由样本数据求出统计量T的值,如果样本值在拒绝域,则拒绝 H 0 H_0 H0,落在接受域,接受 H 0 H_0 H0
10.1.2 两类错误
第一类错误:弃真
P { 拒 绝 H 0 ∣ H 0 为 真 } = α P\{拒绝H_0|H_0为真\}=\alpha P{拒绝H0∣H0为真}=α
第二类错误:纳伪
P
{
接
受
H
0
∣
H
0
为
假
}
=
β
P\{接受H_0|H_0为假\}=\beta
P{接受H0∣H0为假}=β
决
策
H
0
为
真
H
0
为
假
接
受
H
0
正
确
决
策
(
1
−
α
)
纳
伪
[
第
二
类
错
误
]
(
β
)
拒
绝
H
0
弃
真
[
第
一
类
错
误
]
(
α
)
正
确
决
策
(
1
−
β
)
\begin{array}{c|c|c} \hline 决策 & H_0 为真 & H_0 为假 \\ \hline 接受H_0 & 正确决策(1-\alpha) & 纳伪[第二类错误](\beta) \\ \hline 拒绝H_0 & 弃真[第一类错误](\alpha) & 正确决策(1-\beta) \\ \hline \end{array}
决策接受H0拒绝H0H0为真正确决策(1−α)弃真[第一类错误](α)H0为假纳伪[第二类错误](β)正确决策(1−β)
10.2 正态总体的参数假设检验
10.2.1 一个正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
X ∼ N ( μ , σ 2 ) , ( X 1 , X 2 , . . . , X n ) 取 自 X 的 样 本 , 检 验 水 平 α X\sim N(\mu,\sigma^2),(X_1,X_2,...,X_n)取自X的样本,检验水平\alpha X∼N(μ,σ2),(X1,X2,...,Xn)取自X的样本,检验水平α
10.2.1.1 μ \mu μ的假设检验
提出假设
(1) H 0 : μ = μ 0 , H 1 : μ ≠ μ 0 H_0:\mu=\mu_0,H_1:\mu \neq \mu_0 H0:μ=μ0,H1:μ=μ0 【双边检验】
(2) H 0 : μ ≤ μ 0 , H 1 : μ > μ 0 H_0:\mu \leq \mu_0,H_1:\mu > \mu_0 H0:μ≤μ0,H1:μ>μ0 【单边检验】
(3) H 0 : μ ≥ μ 0 , H 1 : μ < μ 0 H_0:\mu \geq \mu_0,H_1:\mu <\mu_0 H0:μ≥μ0,H1:μ<μ0 【单边检验】
1. σ 2 = σ 0 2 \sigma^2=\sigma^2_0 σ2=σ02 已知,检验 H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0 (Z检验)
第一步: H 0 : μ = μ 0 , H 1 : μ ≠ μ 0 H_0:\mu=\mu_0,H_1:\mu \neq \mu_0 H0:μ=μ0,H1:μ=μ0
第二步:假定 H 0 H_0 H0成立, X ∼ N ( μ 0 , σ 0 2 ) X \sim N(\mu_0,\sigma_0^2) X∼N(μ0,σ02)
⟹ \Longrightarrow ⟹ 取统计量: U = X ‾ − μ 0 σ / n ∼ N ( 0 , 1 ) U=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1) U=σ/nX−μ0∼N(0,1)
第三步:对于给定的 α \alpha α,由 P { ∣ U ∣ ≥ U α 2 } = α P\{|U|\geq U_{\frac{\alpha}{2}}\}=\alpha P{∣U∣≥U2α}=α 得到 U α 2 U_{\frac{\alpha}{2}} U2α,拒绝域: { ( X 1 , X 2 , . . . , X n ) ∣ ∣ U ∣ > U α 2 } \{(X_1,X_2,...,X_n)||U|>U_{\frac{\alpha}{2}}\} {(X1,X2,...,Xn)∣∣U∣>U2α}
【 α = 0.1 , U α 2 = 1.64 ; α = 0.05 , U α 2 = 1.96 ; α = 0.01 , U α 2 = 2.58 \alpha=0.1,U_{\frac{\alpha}{2}}=1.64;\alpha=0.05,U_{\frac{\alpha}{2}}=1.96;\alpha=0.01,U_{\frac{\alpha}{2}}=2.58 α=0.1,U2α=1.64;α=0.05,U2α=1.96;α=0.01,U2α=2.58】
第四步:通过样本值计算 U U U的值 u u u,将 ∣ u ∣ |u| ∣u∣与 U α 2 U_{\frac{\alpha}{2}} U2α进行比较,结论:
{ ∣ u ∣ > U α 2 拒 绝 H 0 ∣ u ∣ < U α 2 接 受 H 0 ∣ u ∣ = U α 2 再 抽 样 \begin{cases} |u|> U_{\frac{\alpha}{2}} &拒绝H_0 \\ |u|<U_{\frac{\alpha}{2}} & 接受H_0 \\ |u|=U_{\frac{\alpha}{2}} & 再抽样 \end{cases} ⎩⎪⎨⎪⎧∣u∣>U2α∣u∣<U2α∣u∣=U2α拒绝H0接受H0再抽样
2. σ 2 \sigma^2 σ2未知,检验 H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0 (t检验)
统计量: T = X ‾ − μ 0 S / n ∼ t ( n − 1 ) T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}\sim t(n-1) T=S/nX−μ0∼t(n−1)
10.2.1.2 σ 2 \sigma^2 σ2的假设检验
-
μ = μ 0 \mu=\mu_0 μ=μ0已知,检验 H 0 : σ 2 = σ 0 2 H_0:\sigma^2=\sigma_0^2 H0:σ2=σ02( χ 2 \chi^2 χ2检验)
统计量: χ 2 = ∑ i = 1 n ( X i − μ 0 ) 2 σ 0 2 ∼ χ 2 ( n ) \chi^2=\frac{\sum_{i=1}^n(X_i-\mu_0)^2}{\sigma^2_0} \sim \chi^2(n) χ2=σ02∑i=1n(Xi−μ0)2∼χ2(n)
-
μ \mu μ 未知,检验 H 0 : σ 2 = σ 0 2 H_0:\sigma^2=\sigma_0^2 H0:σ2=σ02 ( χ 2 \chi^2 χ2检验)
统计量:
χ 2 = ∑ i = 1 n ( X i − X ‾ ) 2 σ 0 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{\sigma^2_0} \sim \chi^2(n-1) χ2=σ02∑i=1n(Xi−X)2∼χ2(n−1)
⟹ \Longrightarrow ⟹ χ 2 = ( n − 1 ) S 2 σ 0 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{(n-1)S^2}{\sigma^2_0} \sim \chi^2(n-1) χ2=σ02(n−1)S2∼χ2(n−1)
10.2.2 两个正态总体
X ∼ N ( μ 1 , σ 1 2 ) , ( X 1 , X 2 , . . . , X n ) 取 自 X 的 样 本 , X ‾ , S 1 2 X\sim N(\mu_1,\sigma_1^2),(X_1,X_2,...,X_n)取自X的样本,\overline{X},S_1^2 X∼N(μ1,σ12),(X1,X2,...,Xn)取自X的样本,X,S12
Y ∼ N ( μ 2 , σ 2 2 ) , ( Y 1 , Y 2 , . . . , Y n ) 取 自 Y 的 样 本 , Y ‾ , S 2 2 Y\sim N(\mu_2,\sigma_2^2),(Y_1,Y_2,...,Y_n)取自Y的样本,\overline{Y},S_2^2 Y∼N(μ2,σ22),(Y1,Y2,...,Yn)取自Y的样本,Y,S22
10.2.2.1 均值 μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2的差异性检验
提出假设
(1) H 0 : μ 1 = μ 2 , H 1 : μ 1 ≠ μ 1 H_0:\mu_1=\mu_2,H_1:\mu_1 \neq \mu_1 H0:μ1=μ2,H1:μ1=μ1 【双边检验】
(2) H 0 : μ 1 ≤ μ 2 , H 1 : μ 1 > μ 2 H_0:\mu_1 \leq \mu_2,H_1:\mu_1 > \mu_2 H0:μ1≤μ2,H1:μ1>μ2 【单边检验】
(3) H 0 : μ 1 ≥ μ 2 , H 1 : μ 1 < μ 2 H_0:\mu_1 \geq \mu_2,H_1:\mu_1 <\mu_2 H0:μ1≥μ2,H1:μ1<μ2 【单边检验】
1. σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ12,σ22 已知,检验 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H0:μ1=μ2 (Z检验)
X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \overline{X}-\overline{Y} \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) X−Y∼N(μ1−μ2,n1σ12+n2σ22)
统计量: U = X ‾ − Y ‾ − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) U=\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1) U=n1σ12+n2σ22X−Y−(μ1−μ2)∼N(0,1)
2. σ 1 2 = σ 2 2 = σ 2 \sigma_1^2=\sigma_2^2=\sigma^2 σ12=σ22=σ2未知,检验 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H0:μ1=μ2 (t检验)
统计量:T
σ
1
2
=
σ
2
2
=
σ
2
⇓
U
=
X
‾
−
Y
‾
−
(
μ
1
−
μ
2
)
σ
2
n
1
+
σ
2
n
2
∼
N
(
0
,
1
)
⇓
用
S
2
估
计
σ
2
→
Y
=
(
n
1
−
1
)
S
1
2
+
(
n
2
−
2
)
S
2
2
σ
2
∼
χ
2
(
n
1
+
n
2
−
2
)
T
=
U
Y
/
(
n
1
+
n
2
−
2
)
∼
t
(
n
1
+
n
2
−
2
)
\begin{aligned} \sigma_1^2 &=\sigma_2^2=\sigma^2 \\ &\Downarrow \\ U&=\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2}}}\sim N(0,1) \\ &\Downarrow 用S^2估计\sigma^2\rightarrow Y=\frac{(n_1-1)S_1^2+(n_2-2)S_2^2}{\sigma^2}\sim \chi^2(n_1+n_2-2)\\ T&=\frac{U}{\sqrt{Y/(n_1+n_2-2)}}\sim t(n_1+n_2-2) \end{aligned}
σ12UT=σ22=σ2⇓=n1σ2+n2σ2X−Y−(μ1−μ2)∼N(0,1)⇓用S2估计σ2→Y=σ2(n1−1)S12+(n2−2)S22∼χ2(n1+n2−2)=Y/(n1+n2−2)U∼t(n1+n2−2)
10.2.2.2 方差 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ12,σ22的差异性检验
1. μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2都未知,检验 H 0 : σ 1 2 = σ 2 2 H_0:\sigma_1^2=\sigma_2^2 H0:σ12=σ22
统计量: F = S 1 2 S 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F=\frac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1) F=S22S12∼F(n1−1,n2−1)
10.3 分布拟合检验
对总体分布进行假设检验,假设总体服从某分布
步骤:
-
在 H 0 H_0 H0下,总体 X X X取值的全体分为 k k k个两两不相交的子集 A 1 , . . . , A k A_1,...,A_k A1,...,Ak
-
以 n i ( i = 1 , . . . , k ) n_i(i=1,...,k) ni(i=1,...,k)记样本观察值 x 1 , . . . , x n x_1,...,x_n x1,...,xn中落在 A i A_i Ai的个数(实际频数)
-
当 H 0 H_0 H0为真且 F 0 ( x ) F_0(x) F0(x)完全已知时,计算事件 A i A_i Ai发生概率 p i = P F 0 ( A i ) , i = 1 , . . . , k p_i=P_{F_0}(A_i),i=1,...,k pi=PF0(Ai),i=1,...,k
当 F 0 ( x ) F_0(x) F0(x)含有 r r r个未知参数时,先利用极大似然估计法估计 r r r个未知参数,然后求得 p i p_i pi的估计 p i ^ \hat{p_i} pi^
此时 n p i ( n p i ^ ) np_i(n\hat{p_i}) npi(npi^)为理论频数
-
检验统计量 χ 2 = ∑ i = 1 k ( n i − n p i ) 2 n p i = ∑ i = 1 k n i 2 n p i − n \chi^2=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i}=\sum_{i=1}^k\frac{n_i^2}{np_i}-n χ2=∑i=1knpi(ni−npi)2=∑i=1knpini2−n
或者 χ 2 = ∑ i = 1 k ( n i − n p i ^ ) 2 n p i ^ = ∑ i = 1 k n i 2 n p i ^ − n \chi^2=\sum_{i=1}^k\frac{(n_i-n\hat{p_i})^2}{n\hat{p_i}}=\sum_{i=1}^k\frac{n_i^2}{n\hat{p_i}}-n χ2=∑i=1knpi^(ni−npi^)2=∑i=1knpi^ni2−n
拒绝域: χ 2 = ∑ i = 1 k n i 2 n p i − n ≥ χ α 2 ( k − 1 ) \chi^2=\sum_{i=1}^k\frac{n_i^2}{np_i}-n \geq \chi^2_\alpha(k-1) χ2=∑i=1knpini2−n≥χα2(k−1)
或者 χ 2 = ∑ i = 1 k n i 2 n p i ^ − n ≥ χ α 2 ( k − r − 1 ) \chi^2=\sum_{i=1}^k\frac{n_i^2}{n\hat{p_i}}-n \geq \chi^2_\alpha(k-r-1) χ2=∑i=1knpi^ni2−n≥χα2(k−r−1)
定理: 若 n 充 分 大 , 则 当 H 0 为 真 时 , 统 计 量 若n充分大,则当H_0为真时,统计量 若n充分大,则当H0为真时,统计量
χ 2 = ∑ i = 1 k ( n i − n p i ) 2 n p i ∼ χ 2 ( k − 1 ) χ 2 = ∑ i = 1 k ( n i − n p i ^ ) 2 n p i ∼ χ 2 ( k − r − 1 ) k 为 分 类 数 , r 为 F 0 ( x ) 中 被 估 未 知 参 数 的 个 数 \begin{aligned} \chi^2&=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i} \sim \chi^2(k-1)\\ \chi^2&=\sum_{i=1}^k\frac{(n_i-n\hat{p_i})^2}{np_i} \sim \chi^2(k-r-1)\\ \\ &k为分类数,r为F_0(x)中被估未知参数的个数 \end{aligned} χ2χ2=i=1∑knpi(ni−npi)2∼χ2(k−1)=i=1∑knpi(ni−npi^)2∼χ2(k−r−1)k为分类数,r为F0(x)中被估未知参数的个数
【注意: χ 2 \chi^2 χ2拟合检验时需要== n n n足够大==, n ≥ 50 , n p i ≥ 5 n\geq 50,np_i\geq5 n≥50,npi≥5。否则应适当合并相邻的类,以满足要求】
十一、方差分析
试验指标: 方差分析中,研究对象的特征值,即所考察的试验结果
因素: 对试验指标产生影响的原因
水平: 因素中各个不同状态
11.1 单因素方差分析
仅考虑一个因素A对试验指标的影响,假设因素A有r个水平,分别在第i水平下进行了多次独立观测,所得到的试验指标的数据
A
1
:
N
(
μ
,
σ
2
)
X
11
X
12
.
.
.
X
1
n
1
A
2
:
N
(
μ
,
σ
2
)
X
21
X
22
.
.
.
X
2
n
2
.
.
.
A
r
:
N
(
μ
,
σ
2
)
X
r
1
X
r
2
.
.
.
X
r
n
1
\begin{aligned} A_1:N(\mu,\sigma^2) && X_{11}&&X_{12}&&... &&X_{1n_1} \\ A_2:N(\mu,\sigma^2) && X_{21}&&X_{22}&&... &&X_{2n_2} \\ ...\\ A_r:N(\mu,\sigma^2) && X_{r1}&&X_{r2}&&... &&X_{rn_1} \\ \end{aligned}
A1:N(μ,σ2)A2:N(μ,σ2)...Ar:N(μ,σ2)X11X21Xr1X12X22Xr2.........X1n1X2n2Xrn1
各总体间相互独立,得到如下的数学模型
{
X
i
j
∼
μ
i
+
ε
i
j
ε
i
j
∼
N
(
0
,
σ
2
)
,
各
ε
i
j
独
立
j
=
1
,
2
,
.
.
.
,
n
i
,
i
=
1
,
2
,
.
.
.
,
r
\begin{cases} X_{ij} \sim \mu_i+\varepsilon_{ij}\\ \varepsilon_{ij}\sim N(0,\sigma^2),各\varepsilon_{ij}独立\\ j=1,2,...,n_i,i=1,2,...,r \end{cases}
⎩⎪⎨⎪⎧Xij∼μi+εijεij∼N(0,σ2),各εij独立j=1,2,...,ni,i=1,2,...,r
记
∑
i
=
1
r
n
i
=
n
,
X
i
⋅
‾
=
1
n
i
∑
j
=
1
n
i
X
i
j
,
X
‾
=
1
n
∑
i
=
1
r
∑
j
=
1
n
i
X
i
j
\sum_{i=1}^rn_i=n,\overline{X_i·}=\frac{1}{n_i}\sum_{j=1}^{n_i}X_{ij},\overline{X}=\frac{1}{n}\sum_{i=1}^r\sum_{j=1}^{n_i}X_{ij}
∑i=1rni=n,Xi⋅=ni1∑j=1niXij,X=n1∑i=1r∑j=1niXij
方差分析的目的: 比较因素A的r各水平下试验指标理论均值的差异,即:比较这r个总体的均值差异
定理: S T = S A + S E S_T=S_A+S_E ST=SA+SE; S E σ 2 ∼ χ 2 ( n − r ) \frac{S_E}{\sigma^2} \sim \chi^2(n-r) σ2SE∼χ2(n−r);
S A 与 S E 相 互 独 立 , 当 H 0 为 真 时 : S A σ 2 ∼ χ 2 ( r − 1 ) S_A与S_E相互独立,当H_0为真时:\frac{S_A}{\sigma^2}\sim \chi^2(r-1) SA与SE相互独立,当H0为真时:σ2SA∼χ2(r−1)
⟹ \Longrightarrow ⟹ F = S A / ( r − 1 ) S E / ( n − r ) ∼ F ( r − 1 , n − r ) F=\frac{S_A/(r-1)}{S_E/(n-r)} \sim F(r-1,n-r) F=SE/(n−r)SA/(r−1)∼F(r−1,n−r)
假设检验: H 0 : μ 1 = μ 2 = . . . = μ r H_0:\mu_1=\mu_2=...=\mu_r H0:μ1=μ2=...=μr
H 1 : μ 1 , μ 2 , . . . , μ r 不 全 相 等 H_1:\mu_1,\mu_2,...,\mu_r不全相等 H1:μ1,μ2,...,μr不全相等
检验假设的方法:平方和分解
-
数据总的差异用总离差平方和 S r S_r Sr表示,将 S r S_r Sr分解为
{ S A 效 应 平 方 和 , 由 于 因 素 A 引 起 的 差 异 S E 误 差 平 方 和 , 由 随 机 误 差 引 起 的 差 异 \begin{cases}S_A & 效应平方和,由于因素A引起的差异 \\ S_E & 误差平方和,由随机误差引起的差异 \end{cases} {SASE效应平方和,由于因素A引起的差异误差平方和,由随机误差引起的差异
{ S T = ∑ i = 1 r ∑ j = 1 n i ( X i j − X ‾ ) 2 S A = ∑ i = 1 r n i ( X i ⋅ ‾ − X ‾ ) 2 S E = ∑ i = 1 r ∑ j = 1 n i ( X i j − X i ⋅ ‾ ) 2 \begin{cases}S_T=\sum_{i=1}^r\sum_{j=1}^{n_i}(X_{ij}-\overline{X})^2 \\S_A =\sum_{i=1}^rn_i(\overline{X_{i·}}-\overline{X})^2\\S_E=\sum_{i=1}^r\sum_{j=1}^{n_i}(X_{ij}-\overline{X_{i·}})^2\end{cases} ⎩⎪⎨⎪⎧ST=∑i=1r∑j=1ni(Xij−X)2SA=∑i=1rni(Xi⋅−X)2SE=∑i=1r∑j=1ni(Xij−Xi⋅)2
拒绝域: F = S A / ( r − 1 ) S E / ( n − r ) ≥ F α ( r − 1 , n − r ) F=\frac{S_A/(r-1)}{S_E/(n-r)}\geq F_{\alpha}(r-1,n-r) F=SE/(n−r)SA/(r−1)≥Fα(r−1,n−r)时拒绝原假设
单因素试验方差分析表:
方
差
来
源
平
方
和
自
由
度
均
方
F
比
因
素
A
[
组
间
]
S
A
r
−
1
S
A
‾
=
S
A
r
−
1
F
=
S
A
/
(
r
−
1
)
S
E
/
(
n
−
r
)
误
差
[
组
内
]
S
E
n
−
r
S
A
‾
=
S
E
n
−
r
总
和
S
T
n
−
1
\begin{array}{c|c|c}\hline方差来源 & 平方和 & 自由度 & 均方 & F比 \\ \hline因素A[组间] & S_A & r-1 & \overline{S_A}=\frac{S_A}{r-1} & F=\frac{S_A/(r-1)}{S_E/(n-r)} \\ \hline 误差[组内] & S_E & n-r & \overline{S_A}=\frac{S_E}{n-r} & \\ \hline总和 & S_T & n-1 & & \\ \hline\end{array}
方差来源因素A[组间]误差[组内]总和平方和SASEST自由度r−1n−rn−1均方SA=r−1SASA=n−rSEF比F=SE/(n−r)SA/(r−1)