文章目录
四. 检验
4.1. 假设检验 hypothesis testing
通过对样本统计量的差异做出一般性结论,判断总体参数之间是否纯在差异,这种推论过程称作 假设检验。
- 参数检验: 总体分布已知,需要对总体的 未知参数 做假设检验。
- Z , t , F Z, t , F Z,t,F 对于连续数据
- 非参数检验: 总体分布知之甚少,对总体 函数形态与特征 进行假设检验。
- x 2 x^2 x2 , 非参检验 对于离散数据。
4.1.1. 两类假设 H 0 , H 1 H_0, H_1 H0,H1
- 备择(研究)假设
H
1
H_1
H1 alternative hypothesis
- 定义:实验人员希望证实的假设
- 性质:假设两个总体参数之间 (
μ
1
≠
μ
2
\mu_1 \neq \mu_2
μ1=μ2),或
样本统计量 X ˉ \bar{X} Xˉ 与总体参数 μ 0 \mu_0 μ0 之间 ( X ˉ ≠ μ 0 → μ 1 ≠ μ 0 \bar{X} \neq \mu_0 \to \mu_1 \neq \mu_0 Xˉ=μ0→μ1=μ0) 存在真实差异,是一种有差假设。 - 表达方式:
H 1 : { μ 1 ≠ μ 0 μ 1 ≠ μ 2 \begin{aligned} H_1 : \begin{cases} \mu_1 \neq \mu_0 \\ \mu_1 \neq \mu_2 \end{cases}\end{aligned} H1:{μ1=μ0μ1=μ2
- 虚无假设
H
0
H_0
H0 null hypothesis
- 定义:研究人员为了证明研究假设为真 通过利用概率论的反证法 所进行的假设
- 性质:假设两个总体参数之间 (
μ
1
=
μ
2
\mu_1 = \mu_2
μ1=μ2),或
样本统计量 X ˉ \bar{X} Xˉ 与总体参数 μ 0 \mu_0 μ0 之间 ( X ˉ = μ 0 → μ 1 = μ 0 \bar{X} = \mu_0 \to \mu_1 = \mu_0 Xˉ=μ0→μ1=μ0) 不 存在真实差异,其存在表面差异为抽样造成的误差,是一种无差假设,又称 零假设 或 原假设。 - 表达方式:
H 0 : { μ 1 = μ 0 μ 1 = μ 2 \begin{aligned} H_0 : \begin{cases} \mu_1 = \mu_0 \\ \mu_1 = \mu_2 \end{cases}\end{aligned} H0:{μ1=μ0μ1=μ2
4.1.2. 显著性水平 significant level
含义
- 含义: 指拒绝虚无假设 H 0 H_0 H0(零假设) 而设定的小概率值。
与假设关系
- 零假设与显著性水平关系:
- 如果零假设正确的可能性只有5%或1%,我们就排除零假设
H
0
H_0
H0。这种临界概率就称为 显著性水平。
α = { 0.05 ( 5 % ) 0.01 ( 1 % ) \begin{aligned} \alpha = \begin{cases} 0.05 \ (5\%) \\ 0.01 \ (1\%) \end{cases} \end{aligned} α={0.05 (5%)0.01 (1%) - 通过判断显著性水平可以判断是否接受零假设
H
0
H_0
H0。
H 0 : X ˉ = μ 0 → μ 1 = μ 0 H_0 : \bar{X} = \mu_0 \to \mu_1 = \mu_0 H0:Xˉ=μ0→μ1=μ0
- 如果零假设正确的可能性只有5%或1%,我们就排除零假设
H
0
H_0
H0。这种临界概率就称为 显著性水平。
单双侧检验
- 双侧检验:只强调差异,不管方向
- H 1 : μ 1 ≠ μ 0 H_1 : \mu_1 \neq \mu_0 H1:μ1=μ0
- 一侧 α / 2 \alpha/2 α/2
- 单侧检验:强调差异,也强调方向
- 右侧: H 0 : μ 1 ≤ μ 0 , H 1 : μ 1 > μ 0 H_0: \mu_1 \leq \mu_0, \ H_1: \mu_1 > \mu_0 H0:μ1≤μ0, H1:μ1>μ0
- 左侧: H 0 : μ 1 ≥ μ 0 , H 1 : μ 1 < μ 0 H_0: \mu_1 \geq \mu_0, \ H_1: \mu_1 < \mu_0 H0:μ1≥μ0, H1:μ1<μ0
接受与拒绝域
- 接受域 与 拒绝域 rejection/critical region
- 5% 的显著性水平时,在标准正态分布上对应的 z z z 值为 ± 1.96 \pm 1.96 ±1.96, 所以
- 接受域 :
[
−
1.96
,
1.96
]
[-1.96, 1.96 ]
[−1.96,1.96]
- X ˉ = μ 0 → H 0 : μ 1 = μ 0 \bar{X} = \mu_0 \to H_0: \mu_1 = \mu_0 Xˉ=μ0→H0:μ1=μ0
- 拒绝域 :
[
−
∞
,
−
1.96
]
or
[
1.96
,
∞
]
[-\infty, -1.96] \text{ or } [1.96, \infty]
[−∞,−1.96] or [1.96,∞]
- X ˉ = μ 0 → H 1 : μ 1 ≠ μ 0 \bar{X} = \mu_0 \to H_1: \mu_1 \neq \mu_0 Xˉ=μ0→H1:μ1=μ0
Type I, II Error
- 两类错误:
-
α
\alpha
α or Type I Error 又叫做 弃真错误。
原假设 H 0 H_0 H0 实际上是正确的,但通过样本估计总体后,检验值进入了拒绝虚无假设 H 0 H_0 H0 的区域,致使做出拒绝原假设的结论。
α → H 0 : μ 1 = μ 0 ⏟ F a l s e → H 1 : μ 1 ≠ μ 0 ( 1 − β ) ⏟ T r u e \displaystyle\alpha \to \underbrace{H_0: \mu_1 = \mu_0}_{False} \to \underbrace{H_1 : \mu_1 \neq \mu_0 (1-\beta)}_{True} α→False H0:μ1=μ0→True H1:μ1=μ0(1−β) -
β
\beta
β or Type II Error 又叫做 取伪错误
原假设 H 0 H_0 H0 实际上是不正确,但通过样本估计总体后,检验值进入了接受虚无假设 H 0 H_0 H0 的区域,致使做出接受原假设的结论,说明事物之间没有显著差异。
β → H 1 : μ 1 ≠ μ 0 ⏟ F a l s e → H 0 : μ 1 = μ 0 ( 1 − α ) ⏟ T r u e \displaystyle\beta \to \underbrace{H_1: \mu_1 \neq \mu_0}_{False} \to \underbrace{H_0 : \mu_1 = \mu_0 (1-\alpha)}_{True} β→False H1:μ1=μ0→True H0:μ1=μ0(1−α)
-
α
\alpha
α or Type I Error 又叫做 弃真错误。
H 0 H_0 H0 | Accepted H 0 H_0 H0 | Rejected H 0 H_0 H0 |
---|---|---|
H 0 H_0 H0 True | TRUE ( 1 − α ) (1-\alpha) (1−α) | Type I error |
H 0 H_0 H0 False | Type II error | TRUE ( 1 − β ) (1-\beta) (1−β) |
-
α , β \alpha, \beta α,β 为拒绝 H 0 , H 1 H_0, H_1 H0,H1 所要付出的代价。
-
由于放弃真错误的概率 被规定的显著性水平 更容易控制,可以将错误影响降到最小,所以一般都是想要拒绝的假设。
错误关系
-
α + β ≠ 1 \alpha + \beta \neq 1 α+β=1
- α \alpha α 为 拒绝原假设 H 0 H_0 H0 时犯错误 的概率,前提为 H 0 H_0 H0 为真。
- β \beta β 为 接受原假设 H 0 H_0 H0 时犯错误 的概率,前提为 H 0 H_0 H0 为伪。
-
α ↑ ↛ β ↑ \alpha \uparrow {\color{red} \nrightarrow } \ \beta \uparrow α↑↛ β↑ 两个无法同时增大与减小
- α ↓ → β ↑ \alpha \downarrow \rightarrow \beta \uparrow α↓→β↑
- α ↑ → β ↓ \alpha \uparrow \rightarrow \beta \downarrow α↑→β↓
- 统计检测力(统计功效)statistical power: 1 − β 1-\beta 1−β
Statistical Power 的影响因素
- 统计检测力(统计功效):
1
−
β
1-\beta
1−β
- ( 1 − β ) (1-\beta) (1−β) 为 H 1 : μ 1 ≠ μ 0 H_1: \mu_1 \neq \mu_0 H1:μ1=μ0 的概率。
-
α
\alpha
α
- 大小
- 单双侧
-
n
n
n 样本抽样容量 size of particular group
- n ↑ → σ x ˉ ↓ = σ n ↑ → α ↓ , β ↓ → ( 1 − β ) ↑ n\uparrow \to \sigma_{\bar{x}}\downarrow = \frac{\sigma}{\sqrt{n}\uparrow}\to \alpha\downarrow, \beta\downarrow \to (1-\beta)\uparrow n↑→σxˉ↓=n↑σ→α↓,β↓→(1−β)↑
- 处理效应 μ 1 − μ 0 \mu_1 - \mu_0 μ1−μ0
4.1.3. 平均数的显著性检验方法
假设检验步骤
- 提出假设:原假设和备择假设(三选一)
- 确定适当的统计检测量 (Z
已知参数$
, t未知参数
) - 指定检验中的显著性水平 α \alpha α
- 利用显著性水平,建立拒绝 H 0 H_0 H0 原则
- 计算样本统计量的值
- 做出统计决策
- 将检验统计量的值与拒绝规则所指定的零界值比较,确定是否拒绝原假设。
- 由检验统计量计算 p p p 值,利用 p p p 值确定是否拒绝原假设。
总结
- 平均数的显著性检验:指检验的一个样本均数 x ˉ \bar{x} xˉ 与相应总体均数 μ 1 \mu_1 μ1 之差。
- Z 检验:总体方差
α
2
\alpha^2
α2 已知
- Z = x ˉ − μ 0 σ x ˉ , σ x ˉ = σ 0 n \displaystyle Z = \frac{\bar{x}-\mu_0}{\sigma_{\bar{x}}}, \ \sigma_{\bar{x}} = \frac{\sigma_0}{\sqrt{n}} Z=σxˉxˉ−μ0, σxˉ=nσ0
- α { 0.05 → Z α 2 = 1.96 , Z α = 1.64 0.01 → Z α 2 = 2.58 , Z α = 2.33 \begin{aligned}\displaystyle\alpha \begin{cases} 0.05 \ \to \ Z _\frac{\alpha}{2} = 1.96 , \ Z _\alpha = 1.64 \\ 0.01 \ \to \ Z _\frac{\alpha}{2} = 2.58, \ Z _\alpha = 2.33 \end{cases} \end{aligned} α{0.05 → Z2α=1.96, Zα=1.640.01 → Z2α=2.58, Zα=2.33
- t 检验:总体方差
α
2
\alpha^2
α2 未知
- Z = x ˉ − μ 0 σ x ˉ , σ x ˉ = S n − 1 \displaystyle Z = \frac{\bar{x}-\mu_0}{\sigma_{\bar{x}}}, \ \sigma_{\bar{x}} = \frac{S}{\sqrt{n-1}} Z=σxˉxˉ−μ0, σxˉ=n−1S
- d f = n − 1 , α { 0.05 → t α 2 , t α 0.01 → t α 2 , t α \begin{aligned}\displaystyle df=n-1, \alpha \begin{cases} 0.05 \ \to \ t_\frac{\alpha}{2},t_\alpha \\ 0.01 \ \to \ t_\frac{\alpha}{2},t_\alpha \end{cases} \end{aligned} df=n−1,α{0.05 → t2α,tα0.01 → t2α,tα
- n > 30 → t ≈ Z n>30 \to t \approx Z n>30→t≈Z
4.1.4. 平均数差异的显著性检验
当两个总体均值都未知时 ( μ 1 = ? , μ 2 = ? \mu_1=?, \mu_2=? μ1=?,μ2=?),通过各抽取 ( n 1 , n 2 ) (n_1, n_2) (n1,n2) 个样本,获取平均数 x 1 ˉ , x 2 ˉ \bar{x_1}, \bar{x_2} x1ˉ,x2ˉ。 分析关系 x 1 ˉ ≠ x 2 ˉ \bar{x_1} \neq \bar{x_2} x1ˉ=x2ˉ, 推断出 μ 1 ≠ μ 2 \mu_1 \neq \mu_2 μ1=μ2。
Z 检验步骤
- 建立假设:
H 0 : μ 1 = μ 2 , H 1 : μ 1 ≠ μ 2 H_0: \mu_1 = \mu_2, \ H_1:\mu_1 \neq \mu_2 H0:μ1=μ2, H1:μ1=μ2 - 计算标准误:
- 独立 样本:
S E D x ˉ = σ 1 2 n 1 + σ 2 2 n 2 SE_{D_{\bar{x}}} = \displaystyle\sqrt{\frac{\sigma_1^2}{n_1}+ \frac{\sigma_2^2}{n_2}} SEDxˉ=n1σ12+n2σ22 - 相关 样本 (相关系数
r
r
r):
S E D x ˉ = σ 1 2 n 1 + σ 2 2 n 2 − 2 r σ 1 n σ 2 n SE_{D_{\bar{x}}} = \displaystyle\sqrt{\frac{\sigma_1^2}{n_1}+ \frac{\sigma_2^2}{n_2} - 2r \frac{\sigma_1}{\sqrt{n}}\frac{\sigma_2}{\sqrt{n}} } SEDxˉ=n1σ12+n2σ22−2rnσ1nσ2
- 独立 样本:
- 计算样本统计量:
Z = X 1 ˉ − X 2 ˉ S E D x ˉ Z = \displaystyle \frac{\bar{X_1} - \bar{X_2}}{SE_{D_{\bar{x}}}} Z=SEDxˉX1ˉ−X2ˉ - 比较,做出决策
t 检验步骤
-
建立假设:
H 0 : μ 1 = μ 2 , H 1 : μ 1 ≠ μ 2 H_0: \mu_1 = \mu_2, \ H_1:\mu_1 \neq \mu_2 H0:μ1=μ2, H1:μ1=μ2 -
计算标准误 (Standard Error of Mean):
- 独立 样本,方差 齐性 :
S P 2 = n 1 s 1 2 + n 2 s 2 2 n 1 + n 2 − 2 S_P^2 = \displaystyle\sqrt{\frac{n_1 s_1^2 + n_2 s^2_2}{n_1+ n_2 -2}} SP2=n1+n2−2n1s12+n2s22
S E D x ˉ = S P 2 ( 1 n 1 + 1 n 2 ) SE_{D_{\bar{x}}} = \displaystyle\sqrt{S_P^2(\frac{1}{n_1} + \frac{1}{n_2})} SEDxˉ=SP2(n11+n21) - 独立 样本,方差 不齐性 : ⋯ \cdots ⋯
- 相关 样本 (相关系数 r r r 已知 ): ⋯ \cdots ⋯
- 相关 样本 (相关系数 r r r 未知 ): ⋯ \cdots ⋯
- 独立 样本,方差 齐性 :
-
计算样本统计量:
t = X 1 ˉ − X 2 ˉ S E D x ˉ , d f = n 1 + n 2 − 2 t = \displaystyle \frac{\bar{X_1} - \bar{X_2}}{SE_{D_{\bar{x}}}}, df = n_1 + n_2 - 2 t=SEDxˉX1ˉ−X2ˉ,df=n1+n2−2 -
比较,做出决策