Day04-概率论与数理统计-数理统计(DataWhale)

八、样本及抽样分布

8.1 总体与样本
  • 总体:个体、总体分布

  • 样本:抽样、样本变量、样本观测值

  • 抽样:简单随机抽样【独立同分布】

  • 样本的分布:

    ​ 变量: ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)

    ​ 分布: F ( x 1 , x 2 , . . . , x n ) = F ( x 1 ) F ( x 2 ) ⋅ ⋅ ⋅ F ( x n ) F(x_1,x_2,...,x_n)=F(x_1)F(x_2)···F(x_n) F(x1,x2,...,xn)=F(x1)F(x2)F(xn)

    ​ 离散型: P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = P ( X 1 = x 1 ) P ( X 2 = x 2 ) ⋅ ⋅ ⋅ P ( X n = x n ) P(X_1=x_1,X_2=x_2,...,X_n=x_n)=P(X_1=x_1)P(X_2=x_2)···P(X_n=x_n) P(X1=x1,X2=x2,...,Xn=xn)=P(X1=x1)P(X2=x2)P(Xn=xn)

    ​ 概率密度函数: f ( x 1 , x 2 , . . . , x n ) = f ( x 1 ) f ( x 2 ) ⋅ ⋅ ⋅ f ( x n ) f(x_1,x_2,...,x_n)=f(x_1)f(x_2)···f(x_n) f(x1,x2,...,xn)=f(x1)f(x2)f(xn)

8.2 统计量

定义: 不含任何未知参数的样本函数

常见统计量

  • 样本均值: X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i X=n1i=1nXi
  • 未修正的样本方差: S 0 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 S_0^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^2 S02=n1i=1n(XiX)2
  • 样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = n n − 1 S 0 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2=\frac{n}{n-1}S_0^2 S2=n11i=1n(XiX)2=n1nS02
  • 样本标准差
  • 样本k阶原点矩: A k = 1 n ∑ i = 1 n X i k A_k=\frac{1}{n}\sum_{i=1}^nX_i^k Ak=n1i=1nXik
  • 样本k阶中心矩: B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k Bk=n1i=1n(XiX)k
  • 协方差
  • 相关系数
8.3 样本均值和方差

总体 X X X的均值 E X = μ EX=\mu EX=μ,方差 D X = σ 2 DX=\sigma^2 DX=σ2,样本 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)来自总体 X X X,则

  • E X ‾ = μ E\overline{X}=\mu EX=μ
  • D X ‾ = 1 n σ 2 D\overline{X}=\frac{1}{n}\sigma^2 DX=n1σ2
  • E S 2 = σ 2 ES^2=\sigma^2 ES2=σ2
8.4 抽样分布

统计量的分布

8.4.1 χ 2 \chi^2 χ2分布

在这里插入图片描述

n n n 越大,峰谷越向右移动,在n-2时取最大值

定理: X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 相互独立, X i ∼ N ( 0 , 1 ) X_i \sim N(0,1) XiN(0,1) ⟹ \Longrightarrow ∑ i = 1 n X i 2 ∼ χ 2 ( n ) = Γ ( n 2 , n ) \sum_{i=1}^nX_i^2 \sim \chi^2(n) =\Gamma(\frac{n}{2},n) i=1nXi2χ2(n)=Γ(2n,n)

由中心极限定理: X ∼ χ 2 ( n ) , n X\sim \chi^2(n),n Xχ2(n)n 充分大, X − n 2 n ∼ N ( 0 , 1 ) \frac{X-n}{\sqrt{2n}}\sim N(0,1) 2n XnN(0,1)

性质:

  • X ∼ χ 2 ( n ) , Y ∼ χ 2 ( m ) , X 与 Y 独 立 , 则 : X + Y ∼ χ 2 ( m + n ) X \sim \chi^2(n),Y\sim \chi^2(m),X与Y独立,则:X+Y \sim \chi^2(m+n) Xχ2(n),Yχ2(m),XYX+Yχ2(m+n)
  • X i ∼ χ 2 ( m i ) ⟹ ∑ i = 1 n X i ∼ χ 2 ( ∑ i = 1 n m i ) X_i \sim \chi^2(m_i) \Longrightarrow \sum_{i=1}^n X_i\sim \chi^2(\sum_{i=1}^n m_i) Xiχ2(mi)i=1nXiχ2(i=1nmi)

α \alpha α分位数: P ( χ 2 > χ α 2 ( n ) ) = α P(\chi^2>\chi^2_\alpha(n))=\alpha P(χ2>χα2(n))=α

χ α 2 ( n ) \chi^2_\alpha(n) χα2(n)是一个点, α \alpha α是面积,整体表示大于 χ α 2 ( n ) \chi^2_\alpha(n) χα2(n)这个点的面积是 α \alpha α

8.4.2 t分布

在这里插入图片描述

n ≥ 30 n\geq 30 n30与正态分布差别很小,t分布对称性

定理: X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X \sim N(0,1) , Y\sim\chi^2(n) XN(0,1),Yχ2(n),且 X , Y X,Y X,Y独立,则 t = X Y / n ∼ t ( n ) t=\frac{X}{\sqrt{Y/n}}\sim t(n) t=Y/n Xt(n)

t分布的上 α \alpha α分位数: P ( t > t α ( n ) ) = α P(t>t_{\alpha}(n))=\alpha P(t>tα(n))=α 对称性 ⟹ \Longrightarrow t 1 − α ( n ) = − t α ( n ) t_{1-\alpha}(n)=-t_{\alpha}(n) t1α(n)=tα(n)

8.4.3 F分布

在这里插入图片描述

定理: X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) , X 与 Y 独 立 X\sim \chi^2(n_1),Y\sim \chi^2(n_2),X与Y独立 Xχ2(n1),Yχ2(n2),XY,则 F = X / n 1 Y / n 2 ∼ F ( n 1 , n 2 ) F=\frac{X/n_1}{Y/n_2}\sim F(n_1,n_2) F=Y/n2X/n1F(n1,n2)

1 F ∼ F ( n 2 , n 1 ) \frac{1}{F}\sim F(n_2,n_1) F1F(n2,n1)

F分布的上 α \alpha α分位数: P ( F > F α ( n 1 , n 2 ) = α ) P(F>F_{\alpha}(n_1,n_2)=\alpha) P(F>Fα(n1,n2)=α) ⟹ \Longrightarrow F 1 − α ( n 1 , n 2 ) = 1 F α ( n 2 , n 1 ) F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)} F1α(n1,n2)=Fα(n2,n1)1

8.4.4 正态总体下的抽样分布

总体是正态分布,抽取样本后构造的统计量的分布

定理1:【一个正态总体】 X ∼ N ( μ , σ 2 ) , { X 1 , X 2 , . . . , X n } X\sim N(\mu,\sigma^2),\{X_1,X_2,...,X_n\} XN(μ,σ2),{X1,X2,...,Xn}是来自 X X X的一个样本, 样本均值: X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i X=n1i=1nXi , 样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 S2=n11i=1n(XiX)2

  • X ‾ ∼ N ( μ , σ 2 n ) ⟹ X ‾ − μ σ n ∼ N ( 0 , 1 ) \overline{X}\sim N(\mu,\frac{\sigma^2}{n}) \Longrightarrow \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1) XN(μ,nσ2)n σXμN(0,1)

  • ( n − 1 ) S 2 σ 2 = ∑ i = 1 n ( X i − X ‾ ) 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} = \frac{\sum_{i=1}^n(X_i-\overline{X})^2}{\sigma^2}\sim \chi^2(n-1) σ2(n1)S2=σ2i=1n(XiX)2χ2(n1)

  • X ‾ 与 S \overline{X}与S XS独立

  • ∑ i = 1 n ( X i − μ ) 2 σ 2 ∼ χ 2 ( n ) \frac{\sum_{i=1}^n(X_i-\mu)^2}{\sigma^2}\sim \chi^2(n) σ2i=1n(Xiμ)2χ2(n)

  • X ‾ − μ S n ∼ t ( n − 1 ) \frac{\overline{X}-\mu}{S}\sqrt{n} \sim t(n-1) SXμn t(n1)

定理2:【两个正态总体】 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2) XN(μ1,σ12),YN(μ2,σ22) { X 1 , X 2 , . . . , X n 1 } \{X_1,X_2,...,X_{n_1}\} {X1,X2,...,Xn1}来自 X X X,样本均值是 X ‾ \overline{X} X,样本方差是 S 1 2 S_1^2 S12 { Y 1 , Y 2 , . . . , Y n 2 } \{Y_1,Y_2,...,Y_{n_2}\} {Y1,Y2,...,Yn2}来自 Y Y Y,样本均值是 Y ‾ \overline{Y} Y,样本方差是 S 2 2 S_2^2 S22

  • ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1) n1σ12+n2σ22 (XY)(μ1μ2)N(0,1)

X ‾ ∼ N ( μ 1 , σ 1 2 n 1 ) , Y ‾ ∼ N ( μ 2 , σ 2 2 n 2 ) , X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \overline{X}\sim N(\mu_1,\frac{\sigma_1^2}{n_1}),\overline{Y}\sim N(\mu_2,\frac{\sigma_2^2}{n_2}),\overline{X}-\overline{Y}\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) XN(μ1,n1σ12),YN(μ2,n2σ22),XYN(μ1μ2,n1σ12+n2σ22)

  • S 1 2 / σ 1 2 S 2 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1) S22/σ22S12/σ12F(n11,n21)

  • σ 1 2 = σ 2 2 = σ 2 时 \sigma_1^2=\sigma_2^2=\sigma^2时 σ12=σ22=σ2 ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2) Swn11+n21 (XY)(μ1μ2)t(n1+n22) 其中, S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} Sw2=n1+n22(n11)S12+(n21)S22

九、参数估计

参数空间:参数取值范围

9.1 点估计

θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta} =\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn)

9.1.1 矩估计

用样本的矩代替整体的矩
阶 数 总 体 的 矩 样 本 的 矩 一 阶 E X X ‾ = 1 n ∑ X i 二 阶 E X 2 A 2 = 1 n ∑ X i 2 \begin{array}{c|c|c} \hline 阶数 & 总体的矩 & 样本的矩 \\\hline 一阶 & EX & \overline{X}=\frac{1}{n}\sum X_i \\ 二阶 & EX^2 & A_2=\frac{1}{n}\sum X_i^2 \\ \hline \end{array} EXEX2X=n1XiA2=n1Xi2
二阶:【 D X = E X 2 − ( E X ) 2 DX=EX^2-(EX)^2 DX=EX2(EX)2

二阶中心矩: B 2 = 1 n ∑ ( X i − X ‾ ) 2 B_2=\frac{1}{n}\sum (X_i-\overline{X})^2 B2=n1(XiX)2

X ∼ N ( μ , σ 2 ) , μ 和 σ 2 未 知 , 则 μ ^ = X ‾ , σ 2 ^ = 1 n ∑ ( X i − X ‾ ) 2 = B 2 X \sim N(\mu,\sigma^2),\mu和\sigma^2未知,则\hat{\mu}=\overline{X},\hat{\sigma^2}=\frac{1}{n}\sum (X_i-\overline{X})^2=B_2 XN(μ,σ2),μσ2μ^=X,σ2^=n1(XiX)2=B2

9.1.2 极大似然估计

概率大的事件比概率小的事件更容易发生,将使A发生的概率最大的参数值作为估计值。

例题:

总体 X ∼ p ( λ ) , ( X 1 , X 2 , . . . , X n ) X\sim p(\lambda),(X_1,X_2,...,X_n) Xp(λ),(X1,X2,...,Xn)为样本,求 λ \lambda λ的极大似然估计

解:

总体的概率密度函数 P ( X = k ) = λ k k ! e − λ ( k = 0 , 1 , 2 , . . . ) P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}(k=0,1,2,...) P(X=k)=k!λkeλ(k=0,1,2,...)

λ \lambda λ的极大似然函数为: L ( λ ) = ∏ i = 1 n λ x i x i ! e − λ = λ x 1 + x 2 + . . . + x n ∏ i = 1 n x i ! e − n λ L(\lambda)=\prod_{i=1}^n\frac{\lambda^{x_i}}{{x_i}!}e^{-\lambda}=\frac{\lambda^{x_1+x_2+...+x_n}}{\prod_{i=1}^nx_i!}e^{-n\lambda} L(λ)=i=1nxi!λxieλ=i=1nxi!λx1+x2+...+xnenλ x i x_i xi 为已知的观测值】

两边取 l n ln ln l n L ( λ ) = ( x 1 + x 2 + . . . + x n ) l n λ − n λ − ∏ i = 1 n x i ! lnL(\lambda)=(x_1+x_2+...+x_n)ln\lambda-n\lambda-\prod_{i=1}^nx_i! lnL(λ)=(x1+x2+...+xn)lnλnλi=1nxi!

两边对 λ \lambda λ求导: d l n ( λ ) d λ = x 1 + x 2 + . . . + x n λ − n = 0 \frac{dln(\lambda)}{d\lambda}=\frac{x_1+x_2+...+x_n}{\lambda}-n=0 dλdln(λ)=λx1+x2+...+xnn=0

λ ^ = x 1 + x 2 + . . . + x n n = X ‾ \hat{\lambda}=\frac{x_1+x_2+...+x_n}{n}=\overline{X} λ^=nx1+x2+...+xn=X

解题步骤:

  1. 写出总体的概率函数【离散】、密度函数【连续】
  2. 写出似然函数 L ( λ ) L(\lambda) L(λ)
  3. 两边取 l n L ( λ ) lnL(\lambda) lnL(λ)
  4. 两边对 λ \lambda λ求导【偏导】,令导数【偏导】等于0
9.2 点估计的优良性准则
9.2.1 无偏性

E θ ^ = θ E\hat{\theta}=\theta Eθ^=θ

总体 X , E X = μ , D X = σ 2 , ( X 1 , X 2 , . . . , X n ) X,EX=\mu,DX=\sigma^2,(X_1,X_2,...,X_n) XEX=μDX=σ2,(X1,X2,...,Xn)

  • X ‾ 是 μ 的 无 偏 估 计 , E X ‾ = μ \overline{X}是\mu的无偏估计,E\overline{X}=\mu XμEX=μ
  • 样 本 方 差 S 2 是 σ 2 的 无 偏 估 计 , E S 2 = σ 2 样本方差S^2是\sigma^2的无偏估计,ES^2=\sigma^2 S2σ2ES2=σ2
  • 未 修 正 方 差 S 0 2 是 σ 2 的 有 偏 估 计 未修正方差S_0^2是\sigma^2的有偏估计 S02σ2

θ ^ 是 θ 的 无 偏 估 计 , 但 是 g ( θ ^ ) 不 一 定 是 g ( θ ) 的 无 偏 估 计 \hat{\theta}是\theta的无偏估计,但是g(\hat{\theta})不一定是g(\theta)的无偏估计 θ^θg(θ^)g(θ) 样 本 方 差 S 2 是 σ 2 的 无 偏 估 计 , 但 是 S 2 不 是 σ 2 的 无 偏 估 计 样本方差S^2是\sigma^2的无偏估计,但是\sqrt{S^2}不是\sqrt{\sigma^2}的无偏估计 S2σ2,S2 σ2

9.2.2 有效性

D ( θ ^ 1 ) ≤ D ( θ ^ 2 ) D({\hat{\theta}_1})\leq D(\hat{\theta}_2) D(θ^1)D(θ^2),方差越小越好

9.2.3 一致性

l i m n → + ∞ P ( ∣ θ ^ − θ ∣ < ε ) = 1 lim_{n\rightarrow{+\infty}}P(|\hat{\theta}-\theta|<\varepsilon)=1 limn+P(θ^θ<ε)=1 【样本数目n越多,估计值与真实值的距离越小】

9.3 区间估计
9.3.1 置信区间

区间长度、以概率p落在这个区域

P ( θ ^ 1 ≤ θ ≤ θ ^ 2 ) = 1 − α P(\hat{\theta}_1\leq\theta\leq \hat{\theta}_2)=1-\alpha P(θ^1θθ^2)=1α 1 − α : 置 信 度 ; [ θ ^ 1 , θ ^ 2 ] 1-\alpha:置信度;[\hat{\theta}_1,\hat{\theta}_2] 1α[θ^1,θ^2]:置信区间】

[ θ ^ 1 , θ ^ 2 ] [\hat{\theta}_1,\hat{\theta}_2] [θ^1,θ^2]能套 θ \theta θ的概率】

枢轴变量

  1. F = I ( T , θ ) F=I(T,\theta) F=I(T,θ) θ \theta θ未知, T T T已知,分布 F F F已知且与 θ \theta θ无关】 ⟹ \Longrightarrow 枢轴变量
  2. 给定 1 − α 1-\alpha 1α,确定F的上 α 2 \frac{\alpha}{2} 2α分位数 V α 2 V_{\frac{\alpha}{2}} V2α,上 ( 1 − α 2 ) (1-\frac{\alpha}{2}) (12α)分位数 V 1 − α 2 V_{1-\frac{\alpha}{2}} V12α, P ( V 1 − α 2 ≤ F ( T , θ ) ≤ V α 2 ) = 1 − α P({V_{1-\frac{\alpha}{2}}}\leq F(T,\theta)\leq V_{\frac{\alpha}{2}})=1-\alpha P(V12αF(T,θ)V2α)=1α
9.4 正态总体均值和方差的区间估计
9.4.1 一个总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
(1) σ 2 \sigma^2 σ2已知,估计 μ \mu μ

构造: U = X ‾ − μ σ / n ∼ N ( 0 , 1 ) U=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) U=σ/n XμN(0,1),给定 1 − α 1-\alpha 1α,令 P ( U > U α 2 ) = α 2 , Φ 0 ( α 2 ) = 1 − Φ 0 ( α 2 ) P(U>U_\frac{\alpha}{2})=\frac{\alpha}{2},\Phi_0(\frac{\alpha}{2})=1-\Phi_0(\frac{\alpha}{2}) P(U>U2α)=2α,Φ0(2α)=1Φ0(2α)

则: P ( − U α 2 ≤ X ‾ − μ σ / n ≤ U α 2 ) = 1 − α P(-U_{\frac{\alpha}{2}}\leq \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \leq U_{\frac{\alpha}{2}})=1-\alpha P(U2ασ/n XμU2α)=1α ⟹ \Longrightarrow P ( X ‾ − U α 2 ⋅ σ n ≤ μ ≤ X ‾ + U α 2 ⋅ σ n ) = 1 − α P(\overline{X}-\frac{U_{\frac{\alpha}{2}}·\sigma}{\sqrt{n}}\leq \mu \leq \overline{X}+\frac{U_{\frac{\alpha}{2}}·\sigma}{\sqrt{n}})=1-\alpha P(Xn U2ασμX+n U2ασ)=1α

(2) σ 2 \sigma^2 σ2未知,估计 μ \mu μ

构造: T = X ‾ − μ S / n ∼ t ( n − 1 ) T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) T=S/n Xμt(n1) 【S:样本标准差】

则: P ( − t α 2 ( n − 1 ) ≤ X ‾ − μ S / n ≤ t α 2 ( n − 1 ) ) = 1 − α P(-t_{\frac{\alpha}{2}}(n-1)\leq \frac{\overline{X}-\mu}{S/\sqrt{n}} \leq t_{\frac{\alpha}{2}}(n-1))=1-\alpha P(t2α(n1)S/n Xμt2α(n1))=1α

(3) μ \mu μ已知,估计 σ 2 \sigma^2 σ2

χ 2 = 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 ∼ χ 2 ( n ) \chi^2=\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \sim \chi^2(n) χ2=σ21i=1n(Xiμ)2χ2(n),给定 1 − α 1-\alpha 1α χ 1 − α 2 2 ( n ) \chi^2_{1-\frac{\alpha}{2}}(n) χ12α2(n) χ α 2 2 ( n ) \chi^2_{\frac{\alpha}{2}}(n) χ2α2(n)

⟹ \Longrightarrow P ( χ 1 − α 2 2 ( n ) ≤ 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 ≤ χ α 2 2 ( n ) ) = 1 − α P(\chi^2_{1-\frac{\alpha}{2}}(n)\leq \frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \leq \chi^2_{\frac{\alpha}{2}}(n))=1-\alpha P(χ12α2(n)σ21i=1n(Xiμ)2χ2α2(n))=1α

(4) μ \mu μ未知,估计 σ 2 \sigma^2 σ2

χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) χ2=σ2(n1)S2χ2(n1) χ 1 − α 2 2 ( n − 1 ) \chi^2_{1-\frac{\alpha}{2}}(n-1) χ12α2(n1) χ α 2 2 ( n ) \chi^2_{\frac{\alpha}{2}}(n) χ2α2(n)

⟹ \Longrightarrow P ( χ 1 − α 2 2 ( n − 1 ) ≤ ( n − 1 ) S 2 σ 2 ≤ χ α 2 2 ( n − 1 ) ) = 1 − α P(\chi^2_{1-\frac{\alpha}{2}}(n-1)\leq \frac{(n-1)S^2}{\sigma^2} \leq \chi^2_{\frac{\alpha}{2}}(n-1))=1-\alpha P(χ12α2(n1)σ2(n1)S2χ2α2(n1))=1α
估 计 条 件 构 造 函 数 置 信 区 间 μ σ 2 已 知 U = X ‾ − μ σ / n ∼ N ( 0 , 1 ) [ X ‾ − σ ⋅ U α 2 n , X ‾ + σ ⋅ U α 2 n ] μ σ 2 未 知 T = X ‾ − μ S / n ∼ t ( n − 1 ) [ X ‾ − S n t α 2 ( n − 1 ) n , X ‾ + S n t α 2 ( n − 1 ) n ] σ 2 μ 已 知 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 ∼ χ 2 ( n ) [ ∑ ( X i − μ ) 2 χ α 2 2 ( n ) , ∑ ( X i − μ ) 2 χ 1 − α 2 2 ( n ) ] σ 2 μ 未 知 ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) [ ( n − 1 ) S 2 χ α 2 2 ( n − 1 ) , ( n − 1 ) S 2 χ 1 − α 2 2 ( n − 1 ) ] \begin{array}{c|c|c} \hline 估计 & 条件 & 构造函数 & 置信区间 \\\hline \mu & \sigma^2已知 & U=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) & [\overline{X}-\frac{\sigma·U_{\frac{\alpha}{2}}}{\sqrt{n}},\overline{X}+\frac{\sigma·U_{\frac{\alpha}{2}}}{\sqrt{n}}] \\ \mu & \sigma^2未知 & T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) & [\overline{X}-\frac{\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1)}{\sqrt{n}},\overline{X}+\frac{\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1)}{\sqrt{n}}] \\ \sigma^2 & \mu已知 &\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \sim \chi^2(n) & [\frac{\sum{(X_i-\mu)^2}}{\chi^2_{\frac{\alpha}{2}}(n)},\frac{\sum{(X_i-\mu)^2}}{\chi^2_{1-\frac{\alpha}{2}}(n)}] \\ \sigma^2 & \mu未知 & \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) & [\frac{(n-1)S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}]\\ \hline \end{array} μμσ2σ2σ2σ2μμU=σ/n XμN(0,1)T=S/n Xμt(n1)σ21i=1n(Xiμ)2χ2(n)σ2(n1)S2χ2(n1)[Xn σU2α,X+n σU2α][Xn n St2α(n1),X+n n St2α(n1)][χ2α2(n)(Xiμ)2,χ12α2(n)(Xiμ)2][χ2α2(n1)(n1)S2,χ12α2(n1)(n1)S2]

9.4.2 两个正态总体

X ∼ N ( μ 1 , σ 1 2 ) X \sim N(\mu_1,\sigma_1^2) XN(μ1,σ12) 样本 ( X 1 , X 2 , . . . , X n 1 ) (X_1,X_2,...,X_{n_1}) (X1,X2,...,Xn1) X ‾ , S 1 2 \overline{X},S_1^2 X,S12

Y ∼ N ( μ 2 , σ 2 2 ) Y \sim N(\mu_2,\sigma^2_2) YN(μ2,σ22) 样本 ( Y 1 , Y 2 , . . . , Y n 2 ) (Y_1,Y_2,...,Y_{n_2}) (Y1,Y2,...,Yn2) Y ‾ , S 2 2 \overline{Y},S_2^2 Y,S22

(1)均值差 μ 1 − μ 2 \mu_1-\mu_2 μ1μ2的区间估计, σ 1 2 , σ 2 2 \sigma^2_1,\sigma^2_2 σ12,σ22已知

构造: X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \overline{X}-\overline{Y} \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) XYN(μ1μ2,n1σ12+n2σ22)

⟹ \Longrightarrow ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1) n1σ12+n2σ22 (XY)(μ1μ2)N(0,1)

(2)均值差 μ 1 − μ 2 \mu_1-\mu_2 μ1μ2的区间估计, σ 1 2 = σ 2 2 = σ 2 \sigma^2_1=\sigma^2_2=\sigma^2 σ12=σ22=σ2未知

构造: ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 2 n 2 ∼ t ( n 1 + n 2 − 2 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w \sqrt{\frac{1}{n_1}+\frac{1^2}{n_2}}} \sim t(n_1+n_2-2) Swn11+n212 (XY)(μ1μ2)t(n1+n22) S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} Sw2=n1+n22(n11)S12+(n21)S22

(3) σ 1 2 σ 2 2 \frac{\sigma^2_1}{\sigma^2_2} σ22σ12的区间估计, μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2未知

构造: F = S 1 2 / σ 1 2 S 2 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1) F=S22/σ22S12/σ12F(n11,n21)

十、假设检验

10.1 基础概念

统计推断:区间估计+假设检验

  • 假设:总体的分布函数未知 { 类 型 未 知 ⟹ 非 参 数 假 设 参 数 未 知 ⟹ 参 数 假 设 \begin{cases}类型未知 \Longrightarrow 非参数假设 \\ 参数未知 \Longrightarrow 参数假设\end{cases} {,对总体的分布函数进行假设

  • 假设检验:检验假设成立与否【参数假设检验、非参数的假设检验】

  • 假设检验问题: { 显 著 性 检 验 问 题 ⟹ 唯 一 假 设 H 0 H 0 对 H 1 的 假 设 检 验 问 题 \begin{cases} 显著性检验问题 \Longrightarrow 唯一假设H_0 \\ H_0对H_1的假设检验问题 \end{cases} {H0H0H1提出原假设【不能轻易否定的假设】、备择假设

10.1.1 假设检验的基本思想和步骤

核心思想:小概率事件在一次试验中不易发生

思想:

  1. 构造统计量T【不含未知参数】,在 H 0 H_0 H0成立的条件下,T的分布已知

  2. 构造检验法则,找到小概率事件 P ( T ∈ I ) = α ( 小 ) P(T \in I)=\alpha(小) P(TI)=α()

    ⟹ \Longrightarrow P { ( X 1 , X 2 , . . . , X n ) ∈ W } = α P\{(X_1,X_2,...,X_n)\in W\}=\alpha P{(X1,X2,...,Xn)W}=α ,则W是小概率事件,拒绝原假设, W W W是拒绝域

    ⟹ \Longrightarrow P { ( X 1 , X 2 , . . . , X n ) ∈ W ‾ } = 1 − α P\{(X_1,X_2,...,X_n)\in \overline{W}\}=1-\alpha P{(X1,X2,...,Xn)W}=1α,接受原假设, W ‾ \overline{W} W是接受域

步骤

  1. 提出原假设与备择假设
  2. 假定 H 0 H_0 H0成立,取统计量T,T的分布已知
  3. 对于给定的 α \alpha α找到拒绝域和接受域
  4. 由样本数据求出统计量T的值,如果样本值在拒绝域,则拒绝 H 0 H_0 H0,落在接受域,接受 H 0 H_0 H0
10.1.2 两类错误

第一类错误:弃真

P { 拒 绝 H 0 ∣ H 0 为 真 } = α P\{拒绝H_0|H_0为真\}=\alpha P{H0H0}=α

第二类错误:纳伪

P { 接 受 H 0 ∣ H 0 为 假 } = β P\{接受H_0|H_0为假\}=\beta P{H0H0}=β
决 策 H 0 为 真 H 0 为 假 接 受 H 0 正 确 决 策 ( 1 − α ) 纳 伪 [ 第 二 类 错 误 ] ( β ) 拒 绝 H 0 弃 真 [ 第 一 类 错 误 ] ( α ) 正 确 决 策 ( 1 − β ) \begin{array}{c|c|c} \hline 决策 & H_0 为真 & H_0 为假 \\ \hline 接受H_0 & 正确决策(1-\alpha) & 纳伪[第二类错误](\beta) \\ \hline 拒绝H_0 & 弃真[第一类错误](\alpha) & 正确决策(1-\beta) \\ \hline \end{array} H0H0H0(1α)[](α)H0[](β)(1β)

10.2 正态总体的参数假设检验
10.2.1 一个正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)

X ∼ N ( μ , σ 2 ) , ( X 1 , X 2 , . . . , X n ) 取 自 X 的 样 本 , 检 验 水 平 α X\sim N(\mu,\sigma^2),(X_1,X_2,...,X_n)取自X的样本,检验水平\alpha XN(μ,σ2)(X1,X2,...,Xn)Xα

10.2.1.1 μ \mu μ的假设检验

提出假设

(1) H 0 : μ = μ 0 , H 1 : μ ≠ μ 0 H_0:\mu=\mu_0,H_1:\mu \neq \mu_0 H0μ=μ0H1μ=μ0 【双边检验】

(2) H 0 : μ ≤ μ 0 , H 1 : μ > μ 0 H_0:\mu \leq \mu_0,H_1:\mu > \mu_0 H0μμ0H1μ>μ0 【单边检验】

(3) H 0 : μ ≥ μ 0 , H 1 : μ < μ 0 H_0:\mu \geq \mu_0,H_1:\mu <\mu_0 H0μμ0H1μ<μ0 【单边检验】

1. σ 2 = σ 0 2 \sigma^2=\sigma^2_0 σ2=σ02 已知,检验 H 0 : μ = μ 0 H_0:\mu=\mu_0 H0μ=μ0Z检验

第一步: H 0 : μ = μ 0 , H 1 : μ ≠ μ 0 H_0:\mu=\mu_0,H_1:\mu \neq \mu_0 H0μ=μ0H1μ=μ0

第二步:假定 H 0 H_0 H0成立, X ∼ N ( μ 0 , σ 0 2 ) X \sim N(\mu_0,\sigma_0^2) XN(μ0,σ02)

⟹ \Longrightarrow 取统计量: U = X ‾ − μ 0 σ / n ∼ N ( 0 , 1 ) U=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1) U=σ/n Xμ0N(0,1)

第三步:对于给定的 α \alpha α,由 P { ∣ U ∣ ≥ U α 2 } = α P\{|U|\geq U_{\frac{\alpha}{2}}\}=\alpha P{UU2α}=α 得到 U α 2 U_{\frac{\alpha}{2}} U2α,拒绝域: { ( X 1 , X 2 , . . . , X n ) ∣ ∣ U ∣ > U α 2 } \{(X_1,X_2,...,X_n)||U|>U_{\frac{\alpha}{2}}\} {(X1,X2,...,Xn)U>U2α}

α = 0.1 , U α 2 = 1.64 ; α = 0.05 , U α 2 = 1.96 ; α = 0.01 , U α 2 = 2.58 \alpha=0.1,U_{\frac{\alpha}{2}}=1.64;\alpha=0.05,U_{\frac{\alpha}{2}}=1.96;\alpha=0.01,U_{\frac{\alpha}{2}}=2.58 α=0.1,U2α=1.64;α=0.05,U2α=1.96;α=0.01,U2α=2.58

第四步:通过样本值计算 U U U的值 u u u,将 ∣ u ∣ |u| u U α 2 U_{\frac{\alpha}{2}} U2α进行比较,结论:

{ ∣ u ∣ > U α 2 拒 绝 H 0 ∣ u ∣ < U α 2 接 受 H 0 ∣ u ∣ = U α 2 再 抽 样 \begin{cases} |u|> U_{\frac{\alpha}{2}} &拒绝H_0 \\ |u|<U_{\frac{\alpha}{2}} & 接受H_0 \\ |u|=U_{\frac{\alpha}{2}} & 再抽样 \end{cases} u>U2αu<U2αu=U2αH0H0

2. σ 2 \sigma^2 σ2未知,检验 H 0 : μ = μ 0 H_0:\mu=\mu_0 H0μ=μ0t检验

统计量: T = X ‾ − μ 0 S / n ∼ t ( n − 1 ) T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}\sim t(n-1) T=S/n Xμ0t(n1)

10.2.1.2 σ 2 \sigma^2 σ2的假设检验
  1. μ = μ 0 \mu=\mu_0 μ=μ0已知,检验 H 0 : σ 2 = σ 0 2 H_0:\sigma^2=\sigma_0^2 H0σ2=σ02 χ 2 \chi^2 χ2检验

    统计量: χ 2 = ∑ i = 1 n ( X i − μ 0 ) 2 σ 0 2 ∼ χ 2 ( n ) \chi^2=\frac{\sum_{i=1}^n(X_i-\mu_0)^2}{\sigma^2_0} \sim \chi^2(n) χ2=σ02i=1n(Xiμ0)2χ2(n)

  2. μ \mu μ 未知,检验 H 0 : σ 2 = σ 0 2 H_0:\sigma^2=\sigma_0^2 H0σ2=σ02 χ 2 \chi^2 χ2检验
    统计量:
    χ 2 = ∑ i = 1 n ( X i − X ‾ ) 2 σ 0 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{\sigma^2_0} \sim \chi^2(n-1) χ2=σ02i=1n(XiX)2χ2(n1)
    ⟹ \Longrightarrow χ 2 = ( n − 1 ) S 2 σ 0 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{(n-1)S^2}{\sigma^2_0} \sim \chi^2(n-1) χ2=σ02(n1)S2χ2(n1)

10.2.2 两个正态总体

X ∼ N ( μ 1 , σ 1 2 ) , ( X 1 , X 2 , . . . , X n ) 取 自 X 的 样 本 , X ‾ , S 1 2 X\sim N(\mu_1,\sigma_1^2),(X_1,X_2,...,X_n)取自X的样本,\overline{X},S_1^2 XN(μ1,σ12)(X1,X2,...,Xn)XX,S12

Y ∼ N ( μ 2 , σ 2 2 ) , ( Y 1 , Y 2 , . . . , Y n ) 取 自 Y 的 样 本 , Y ‾ , S 2 2 Y\sim N(\mu_2,\sigma_2^2),(Y_1,Y_2,...,Y_n)取自Y的样本,\overline{Y},S_2^2 YN(μ2,σ22)(Y1,Y2,...,Yn)YY,S22

10.2.2.1 均值 μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2的差异性检验

提出假设

(1) H 0 : μ 1 = μ 2 , H 1 : μ 1 ≠ μ 1 H_0:\mu_1=\mu_2,H_1:\mu_1 \neq \mu_1 H0μ1=μ2H1μ1=μ1 【双边检验】

(2) H 0 : μ 1 ≤ μ 2 , H 1 : μ 1 > μ 2 H_0:\mu_1 \leq \mu_2,H_1:\mu_1 > \mu_2 H0μ1μ2H1μ1>μ2 【单边检验】

(3) H 0 : μ 1 ≥ μ 2 , H 1 : μ 1 < μ 2 H_0:\mu_1 \geq \mu_2,H_1:\mu_1 <\mu_2 H0μ1μ2H1μ1<μ2 【单边检验】

1. σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ12,σ22 已知,检验 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H0μ1=μ2Z检验

X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \overline{X}-\overline{Y} \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) XYN(μ1μ2,n1σ12+n2σ22)

统计量: U = X ‾ − Y ‾ − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) U=\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1) U=n1σ12+n2σ22 XY(μ1μ2)N(0,1)

2. σ 1 2 = σ 2 2 = σ 2 \sigma_1^2=\sigma_2^2=\sigma^2 σ12=σ22=σ2未知,检验 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H0μ1=μ2t检验

统计量:T
σ 1 2 = σ 2 2 = σ 2 ⇓ U = X ‾ − Y ‾ − ( μ 1 − μ 2 ) σ 2 n 1 + σ 2 n 2 ∼ N ( 0 , 1 ) ⇓ 用 S 2 估 计 σ 2 → Y = ( n 1 − 1 ) S 1 2 + ( n 2 − 2 ) S 2 2 σ 2 ∼ χ 2 ( n 1 + n 2 − 2 ) T = U Y / ( n 1 + n 2 − 2 ) ∼ t ( n 1 + n 2 − 2 ) \begin{aligned} \sigma_1^2 &=\sigma_2^2=\sigma^2 \\ &\Downarrow \\ U&=\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2}}}\sim N(0,1) \\ &\Downarrow 用S^2估计\sigma^2\rightarrow Y=\frac{(n_1-1)S_1^2+(n_2-2)S_2^2}{\sigma^2}\sim \chi^2(n_1+n_2-2)\\ T&=\frac{U}{\sqrt{Y/(n_1+n_2-2)}}\sim t(n_1+n_2-2) \end{aligned} σ12UT=σ22=σ2=n1σ2+n2σ2 XY(μ1μ2)N(0,1)S2σ2Y=σ2(n11)S12+(n22)S22χ2(n1+n22)=Y/(n1+n22) Ut(n1+n22)

10.2.2.2 方差 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ12,σ22的差异性检验

1. μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2都未知,检验 H 0 : σ 1 2 = σ 2 2 H_0:\sigma_1^2=\sigma_2^2 H0σ12=σ22

统计量: F = S 1 2 S 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F=\frac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1) F=S22S12F(n11,n21)

10.3 分布拟合检验

对总体分布进行假设检验,假设总体服从某分布

步骤:

  1. H 0 H_0 H0下,总体 X X X取值的全体分为 k k k个两两不相交的子集 A 1 , . . . , A k A_1,...,A_k A1,...,Ak

  2. n i ( i = 1 , . . . , k ) n_i(i=1,...,k) ni(i=1,...,k)记样本观察值 x 1 , . . . , x n x_1,...,x_n x1,...,xn中落在 A i A_i Ai的个数(实际频数)

  3. H 0 H_0 H0为真且 F 0 ( x ) F_0(x) F0(x)完全已知时,计算事件 A i A_i Ai发生概率 p i = P F 0 ( A i ) , i = 1 , . . . , k p_i=P_{F_0}(A_i),i=1,...,k pi=PF0(Ai),i=1,...,k

    F 0 ( x ) F_0(x) F0(x)含有 r r r个未知参数时,先利用极大似然估计法估计 r r r个未知参数,然后求得 p i p_i pi的估计 p i ^ \hat{p_i} pi^

    此时 n p i ( n p i ^ ) np_i(n\hat{p_i}) npi(npi^)理论频数

  4. 检验统计量 χ 2 = ∑ i = 1 k ( n i − n p i ) 2 n p i = ∑ i = 1 k n i 2 n p i − n \chi^2=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i}=\sum_{i=1}^k\frac{n_i^2}{np_i}-n χ2=i=1knpi(ninpi)2=i=1knpini2n

    ​ 或者 χ 2 = ∑ i = 1 k ( n i − n p i ^ ) 2 n p i ^ = ∑ i = 1 k n i 2 n p i ^ − n \chi^2=\sum_{i=1}^k\frac{(n_i-n\hat{p_i})^2}{n\hat{p_i}}=\sum_{i=1}^k\frac{n_i^2}{n\hat{p_i}}-n χ2=i=1knpi^(ninpi^)2=i=1knpi^ni2n

    拒绝域: χ 2 = ∑ i = 1 k n i 2 n p i − n ≥ χ α 2 ( k − 1 ) \chi^2=\sum_{i=1}^k\frac{n_i^2}{np_i}-n \geq \chi^2_\alpha(k-1) χ2=i=1knpini2nχα2(k1)

    ​ 或者 χ 2 = ∑ i = 1 k n i 2 n p i ^ − n ≥ χ α 2 ( k − r − 1 ) \chi^2=\sum_{i=1}^k\frac{n_i^2}{n\hat{p_i}}-n \geq \chi^2_\alpha(k-r-1) χ2=i=1knpi^ni2nχα2(kr1)

定理: 若 n 充 分 大 , 则 当 H 0 为 真 时 , 统 计 量 若n充分大,则当H_0为真时,统计量 nH0
χ 2 = ∑ i = 1 k ( n i − n p i ) 2 n p i ∼ χ 2 ( k − 1 ) χ 2 = ∑ i = 1 k ( n i − n p i ^ ) 2 n p i ∼ χ 2 ( k − r − 1 ) k 为 分 类 数 , r 为 F 0 ( x ) 中 被 估 未 知 参 数 的 个 数 \begin{aligned} \chi^2&=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i} \sim \chi^2(k-1)\\ \chi^2&=\sum_{i=1}^k\frac{(n_i-n\hat{p_i})^2}{np_i} \sim \chi^2(k-r-1)\\ \\ &k为分类数,r为F_0(x)中被估未知参数的个数 \end{aligned} χ2χ2=i=1knpi(ninpi)2χ2(k1)=i=1knpi(ninpi^)2χ2(kr1)krF0(x)

【注意: χ 2 \chi^2 χ2拟合检验时需要== n n n足够大==, n ≥ 50 , n p i ≥ 5 n\geq 50,np_i\geq5 n50,npi5。否则应适当合并相邻的类,以满足要求】

十一、方差分析

试验指标: 方差分析中,研究对象的特征值,即所考察的试验结果

因素: 对试验指标产生影响的原因

水平: 因素中各个不同状态

11.1 单因素方差分析

仅考虑一个因素A对试验指标的影响,假设因素A有r个水平,分别在第i水平下进行了多次独立观测,所得到的试验指标的数据
A 1 : N ( μ , σ 2 ) X 11 X 12 . . . X 1 n 1 A 2 : N ( μ , σ 2 ) X 21 X 22 . . . X 2 n 2 . . . A r : N ( μ , σ 2 ) X r 1 X r 2 . . . X r n 1 \begin{aligned} A_1:N(\mu,\sigma^2) && X_{11}&&X_{12}&&... &&X_{1n_1} \\ A_2:N(\mu,\sigma^2) && X_{21}&&X_{22}&&... &&X_{2n_2} \\ ...\\ A_r:N(\mu,\sigma^2) && X_{r1}&&X_{r2}&&... &&X_{rn_1} \\ \end{aligned} A1N(μ,σ2)A2N(μ,σ2)...ArN(μ,σ2)X11X21Xr1X12X22Xr2.........X1n1X2n2Xrn1
各总体间相互独立,得到如下的数学模型
{ X i j ∼ μ i + ε i j ε i j ∼ N ( 0 , σ 2 ) , 各 ε i j 独 立 j = 1 , 2 , . . . , n i , i = 1 , 2 , . . . , r \begin{cases} X_{ij} \sim \mu_i+\varepsilon_{ij}\\ \varepsilon_{ij}\sim N(0,\sigma^2),各\varepsilon_{ij}独立\\ j=1,2,...,n_i,i=1,2,...,r \end{cases} Xijμi+εijεijN(0,σ2)εijj=1,2,...,nii=1,2,...,r
∑ i = 1 r n i = n , X i ⋅ ‾ = 1 n i ∑ j = 1 n i X i j , X ‾ = 1 n ∑ i = 1 r ∑ j = 1 n i X i j \sum_{i=1}^rn_i=n,\overline{X_i·}=\frac{1}{n_i}\sum_{j=1}^{n_i}X_{ij},\overline{X}=\frac{1}{n}\sum_{i=1}^r\sum_{j=1}^{n_i}X_{ij} i=1rni=nXi=ni1j=1niXijX=n1i=1rj=1niXij

方差分析的目的: 比较因素A的r各水平下试验指标理论均值的差异,即:比较这r个总体的均值差异

定理: S T = S A + S E S_T=S_A+S_E ST=SA+SE S E σ 2 ∼ χ 2 ( n − r ) \frac{S_E}{\sigma^2} \sim \chi^2(n-r) σ2SEχ2(nr)

S A 与 S E 相 互 独 立 , 当 H 0 为 真 时 : S A σ 2 ∼ χ 2 ( r − 1 ) S_A与S_E相互独立,当H_0为真时:\frac{S_A}{\sigma^2}\sim \chi^2(r-1) SASEH0:σ2SAχ2(r1)

⟹ \Longrightarrow F = S A / ( r − 1 ) S E / ( n − r ) ∼ F ( r − 1 , n − r ) F=\frac{S_A/(r-1)}{S_E/(n-r)} \sim F(r-1,n-r) F=SE/(nr)SA/(r1)F(r1,nr)

假设检验: H 0 : μ 1 = μ 2 = . . . = μ r H_0:\mu_1=\mu_2=...=\mu_r H0:μ1=μ2=...=μr

H 1 : μ 1 , μ 2 , . . . , μ r 不 全 相 等 H_1:\mu_1,\mu_2,...,\mu_r不全相等 H1μ1,μ2,...,μr

检验假设的方法:平方和分解

  1. 数据总的差异用总离差平方和 S r S_r Sr表示,将 S r S_r Sr分解为

    { S A 效 应 平 方 和 , 由 于 因 素 A 引 起 的 差 异 S E 误 差 平 方 和 , 由 随 机 误 差 引 起 的 差 异 \begin{cases}S_A & 效应平方和,由于因素A引起的差异 \\ S_E & 误差平方和,由随机误差引起的差异 \end{cases} {SASEA

    { S T = ∑ i = 1 r ∑ j = 1 n i ( X i j − X ‾ ) 2 S A = ∑ i = 1 r n i ( X i ⋅ ‾ − X ‾ ) 2 S E = ∑ i = 1 r ∑ j = 1 n i ( X i j − X i ⋅ ‾ ) 2 \begin{cases}S_T=\sum_{i=1}^r\sum_{j=1}^{n_i}(X_{ij}-\overline{X})^2 \\S_A =\sum_{i=1}^rn_i(\overline{X_{i·}}-\overline{X})^2\\S_E=\sum_{i=1}^r\sum_{j=1}^{n_i}(X_{ij}-\overline{X_{i·}})^2\end{cases} ST=i=1rj=1ni(XijX)2SA=i=1rni(XiX)2SE=i=1rj=1ni(XijXi)2

拒绝域: F = S A / ( r − 1 ) S E / ( n − r ) ≥ F α ( r − 1 , n − r ) F=\frac{S_A/(r-1)}{S_E/(n-r)}\geq F_{\alpha}(r-1,n-r) F=SE/(nr)SA/(r1)Fα(r1,nr)时拒绝原假设

单因素试验方差分析表:
方 差 来 源 平 方 和 自 由 度 均 方 F 比 因 素 A [ 组 间 ] S A r − 1 S A ‾ = S A r − 1 F = S A / ( r − 1 ) S E / ( n − r ) 误 差 [ 组 内 ] S E n − r S A ‾ = S E n − r 总 和 S T n − 1 \begin{array}{c|c|c}\hline方差来源 & 平方和 & 自由度 & 均方 & F比 \\ \hline因素A[组间] & S_A & r-1 & \overline{S_A}=\frac{S_A}{r-1} & F=\frac{S_A/(r-1)}{S_E/(n-r)} \\ \hline 误差[组内] & S_E & n-r & \overline{S_A}=\frac{S_E}{n-r} & \\ \hline总和 & S_T & n-1 & & \\ \hline\end{array} A[][]SASESTr1nrn1SA=r1SASA=nrSEFF=SE/(nr)SA/(r1)



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值