Wald 检验的理论基础
Wald检验是一种假设检验方法,它的核心思想是利用参数的估计值(通常为最大似然估计,MLE)与假设值之间的差异,以及估计值的标准误差来构造检验统计量,从而判断假设是否合理。
以下是 Wald 检验的详细理论基础:
1. 模型与假设
假设样本 X1,X2,…,XnX_1, X_2, \dots, X_nX1,X2,…,Xn 来自一个参数化的分布,模型的参数为 θ\thetaθ。我们感兴趣的是检验如下假设:
- 原假设 H0:θ=θ0H_0: \theta = \theta_0H0:θ=θ0
- 备择假设 H1:θ≠θ0H_1: \theta \neq \theta_0H1:θ=θ0
其中,θ0\theta_0θ0 是原假设中参数的特定值。
2. 最大似然估计与渐近正态性
最大似然估计(MLE) θ^\hat{\theta}θ^ 是使似然函数 L(θ)L(\theta)L(θ) 最大化的参数估计值:
θ^=argmaxθL(θ)
\hat{\theta} = \arg\max_\theta L(\theta)
θ^=argθmaxL(θ)
根据大样本渐近理论,当样本量 n→∞n \to \inftyn→∞ 时,MLE θ^\hat{\theta}θ^ 是一致估计,并且服从以下渐近分布:
θ^∼N(θ0,Σ(θ0))
\hat{\theta} \sim \mathcal{N}(\theta_0, \Sigma(\theta_0))
θ^∼N(θ0,Σ(θ0))
其中:
- θ0\theta_0θ0 是原假设下的真实值;
- Σ(θ0)=I(θ0)−1\Sigma(\theta_0) = I(\theta_0)^{-1}Σ(θ0)=I(θ0)−1,其中 I(θ0)I(\theta_0)I(θ0) 是 Fisher 信息矩阵,定义为:
I(θ)=−E[∂2∂θ2ℓ(θ)] I(\theta) = - \mathbb{E}\left[\frac{\partial^2}{\partial \theta^2} \ell(\theta)\right] I(θ)=−E[∂θ2∂2ℓ(θ)]
渐近正态性意味着,在 H0H_0H0 下,参数的估计值 θ^\hat{\theta}θ^ 与假设值 θ0\theta_0θ0 之间的差异标准化后服从标准正态分布。
3. Wald 检验的统计量
根据参数的渐近正态性,我们可以直接用参数估计值 θ^\hat{\theta}θ^ 与假设值 θ0\theta_0θ0 之间的偏差,标准化后构造检验统计量。
单参数情形
如果 θ\thetaθ 是一个标量(即只有一个参数),Wald 检验统计量定义为:
W=(θ^−θ0)2Var(θ^)
W = \frac{(\hat{\theta} - \theta_0)^2}{\text{Var}(\hat{\theta})}
W=Var(θ^)(θ^−θ0)2
其中,Var(θ^)\text{Var}(\hat{\theta})Var(θ^) 是 θ^\hat{\theta}θ^ 的方差估计,可以通过样本数据或 Fisher 信息矩阵计算得到。
在 H0H_0H0 下,WWW 服从 χ12\chi^2_1χ12 分布。
多参数情形
如果 θ\thetaθ 是一个 kkk-维向量,假设 H0:θ=θ0H_0: \theta = \theta_0H0:θ=θ0,则 Wald 检验统计量扩展为:
W=(θ^−θ0)TΣ(θ^)−1(θ^−θ0)
W = (\hat{\theta} - \theta_0)^T \Sigma(\hat{\theta})^{-1} (\hat{\theta} - \theta_0)
W=(θ^−θ0)TΣ(θ^)−1(θ^−θ0)
其中:
- Σ(θ^)\Sigma(\hat{\theta})Σ(θ^) 是 θ^\hat{\theta}θ^ 的协方差矩阵;
- 在 H0H_0H0 下,WWW 服从 χk2\chi^2_kχk2 分布。
4. 检验逻辑与决策规则
检验逻辑
- 构造统计量:
- 计算 WWW。
- 确定分布:
- 在原假设 H0H_0H0 下,Wald 检验统计量 WWW 服从卡方分布 χk2\chi^2_kχk2。
- 比较临界值:
- 给定显著性水平 α\alphaα,找到卡方分布的临界值 χk2(α)\chi^2_k(\alpha)χk2(α)。
- 做出决策:
- 如果 W>χk2(α)W > \chi^2_k(\alpha)W>χk2(α),拒绝原假设 H0H_0H0;
- 如果 W≤χk2(α)W \leq \chi^2_k(\alpha)W≤χk2(α),不拒绝原假设 H0H_0H0。
Wald 检验在单参数下的显著性水平
对于单参数情形,如果 W=(θ^−θ0)2Var(θ^)W = \frac{(\hat{\theta} - \theta_0)^2}{\text{Var}(\hat{\theta})}W=Var(θ^)(θ^−θ0)2,取平方根得到:
Z=θ^−θ0SE(θ^)
Z = \frac{\hat{\theta} - \theta_0}{\text{SE}(\hat{\theta})}
Z=SE(θ^)θ^−θ0
其中,SE(θ^)=Var(θ^)\text{SE}(\hat{\theta}) = \sqrt{\text{Var}(\hat{\theta})}SE(θ^)=Var(θ^) 是标准误差。
在 H0H_0H0 下,Z∼N(0,1)Z \sim \mathcal{N}(0, 1)Z∼N(0,1)。可以基于正态分布的临界值进行检验。
5. Wald 检验的依据:为什么有效?
-
渐近正态性:
- 大样本理论保证了参数估计值 θ^\hat{\theta}θ^ 在 H0H_0H0 下近似服从正态分布。
- 这种正态性使得偏差 θ^−θ0\hat{\theta} - \theta_0θ^−θ0 能被标准化后用于假设检验。
-
标准化:
- Wald 检验通过标准化参数偏差,使得不同模型下的检验统计量具有一致的渐近分布(卡方分布或标准正态分布)。
-
不需要重新估计:
- Wald 检验直接利用 θ^\hat{\theta}θ^ 和假设值 θ0\theta_0θ0 计算,不需要像 LRT(似然比检验)或 Score 检验那样在假设值 θ0\theta_0θ0 和估计值 θ^\hat{\theta}θ^ 两者间重复计算。
6. Wald 检验的优缺点
优点
- 简单直接:
- 仅需要参数的估计值和方差估计,计算方便。
- 适用范围广:
- 适用于单参数和多参数模型。
- 渐近性质:
- 在大样本情况下非常有效。
缺点
- 对样本量敏感:
- 小样本情况下,参数估计的分布可能偏离正态性,影响检验的准确性。
- 依赖方差估计:
- Var(θ^)\text{Var}(\hat{\theta})Var(θ^) 的估计精度会直接影响检验结果。
- 不适用于边界参数:
- 当参数值在边界(例如概率参数为0或1)时,渐近正态性可能失效。
7. Wald 检验与其他检验的关系
-
与 Score 检验:
- Wald 检验基于参数的估计值(MLE)进行检验,而 Score 检验基于假设值 θ0\theta_0θ0 下的得分函数。
- Wald 检验需要估计 θ^\hat{\theta}θ^ 和其方差,而 Score 检验直接在 θ0\theta_0θ0 处计算。
-
与似然比检验(LRT):
- Wald 检验仅基于参数估计值 θ^\hat{\theta}θ^,而 LRT 比较两个模型的似然值。
- LRT 通常更强健,但计算更复杂。
8. 总结公式
-
单参数:
W=(θ^−θ0)2Var(θ^) W = \frac{(\hat{\theta} - \theta_0)^2}{\text{Var}(\hat{\theta})} W=Var(θ^)(θ^−θ0)2 -
多参数:
W=(θ^−θ0)TΣ(θ^)−1(θ^−θ0) W = (\hat{\theta} - \theta_0)^T \Sigma(\hat{\theta})^{-1} (\hat{\theta} - \theta_0) W=(θ^−θ0)TΣ(θ^)−1(θ^−θ0) -
在 H0H_0H0 下,W∼χk2W \sim \chi^2_kW∼χk2。
Wald 检验是大样本假设检验的基础工具之一,通过直接比较估计值和假设值的差异,提供了一种简单且有效的检验方法。
下面我们通过具体案例来说明如何应用 Wald 检验。
案例:单参数的二分类逻辑回归模型
假设我们有一个二分类逻辑回归模型,用于预测一个二分类变量 YYY(取值为 0 或 1),其概率由如下关系决定:
P(Y=1∣X)=11+e−(β0+β1X)
P(Y = 1 \mid X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}}
P(Y=1∣X)=1+e−(β0+β1X)1
这里:
- XXX 是一个独立变量(例如年龄或收入)。
- β0\beta_0β0 和 β1\beta_1β1 是模型的参数。
我们感兴趣的是检验 β1\beta_1β1 是否显著不同于 0,即:
- 原假设 H0:β1=0H_0: \beta_1 = 0H0:β1=0
- 备择假设 H1:β1≠0H_1: \beta_1 \neq 0H1:β1=0
数据如下:
| XXX | YYY |
|---|---|
| 0.5 | 0 |
| 1.2 | 1 |
| 2.1 | 1 |
| 1.8 | 0 |
| 3.0 | 1 |
1. 拟合逻辑回归模型
使用最大似然估计拟合逻辑回归模型,得到参数估计值:
β^0=−1.2,β^1=0.8
\hat{\beta}_0 = -1.2, \quad \hat{\beta}_1 = 0.8
β^0=−1.2,β^1=0.8
同时,模型提供了参数的标准误差(SE,估计参数的标准差):
SE(β^1)=0.3
\text{SE}(\hat{\beta}_1) = 0.3
SE(β^1)=0.3
2. 构造 Wald 检验统计量
Wald 检验统计量定义为:
W=(β^1−β1)2Var(β^1)
W = \frac{(\hat{\beta}_1 - \beta_1)^2}{\text{Var}(\hat{\beta}_1)}
W=Var(β^1)(β^1−β1)2
在 H0H_0H0 下,假设 β1=0\beta_1 = 0β1=0,因此:
W=β^12SE(β^1)2=0.820.32=0.640.09=7.11
W = \frac{\hat{\beta}_1^2}{\text{SE}(\hat{\beta}_1)^2} = \frac{0.8^2}{0.3^2} = \frac{0.64}{0.09} = 7.11
W=SE(β^1)2β^12=0.320.82=0.090.64=7.11
3. 假设检验的分布
在 H0H_0H0 下,Wald 检验统计量 WWW 服从 χ12\chi^2_1χ12 分布(自由度为 1)。
给定显著性水平 α=0.05\alpha = 0.05α=0.05,查卡方分布表,临界值为:
χ12(0.05)=3.841
\chi^2_1(0.05) = 3.841
χ12(0.05)=3.841
4. 检验结果与决策
比较统计量 W=7.11W = 7.11W=7.11 和临界值 χ12(0.05)=3.841\chi^2_1(0.05) = 3.841χ12(0.05)=3.841:
- W>3.841W > 3.841W>3.841,因此我们拒绝原假设 H0H_0H0。
5. 结论
通过 Wald 检验,我们得出结论:在显著性水平 α=0.05\alpha = 0.05α=0.05 下,参数 β1\beta_1β1 显著不同于 0,这表明自变量 XXX 对因变量 YYY 有显著影响。
多参数情况的扩展(简单说明)
如果模型有多个参数,例如 β=(β0,β1,β2)\beta = (\beta_0, \beta_1, \beta_2)β=(β0,β1,β2),我们可以构造一个多维 Wald 检验统计量:
W=(β^−β0)TΣ(β^)−1(β^−β0)
W = (\hat{\beta} - \beta_0)^T \Sigma(\hat{\beta})^{-1} (\hat{\beta} - \beta_0)
W=(β^−β0)TΣ(β^)−1(β^−β0)
其中 Σ(β^)\Sigma(\hat{\beta})Σ(β^) 是参数估计的协方差矩阵,WWW 服从 χk2\chi^2_kχk2 分布(kkk 是参数的维度)。
补充多参数 Wald 检验 案例:
案例:多变量线性回归模型
我们拟合一个线性回归模型:
Y=β0+β1X1+β2X2+ϵ
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon
Y=β0+β1X1+β2X2+ϵ
这里:
- YYY 是目标变量;
- X1X_1X1、X2X_2X2 是两个自变量;
- β0,β1,β2\beta_0, \beta_1, \beta_2β0,β1,β2 是回归系数;
- ϵ\epsilonϵ 是误差项。
我们希望检验联合假设:
H0:β1=0和β2=0
H_0: \beta_1 = 0 \quad \text{和} \quad \beta_2 = 0
H0:β1=0和β2=0
即:X1X_1X1 和 X2X_2X2 是否对 YYY 无显著影响。
数据示例
| X1X_1X1 | X2X_2X2 | YYY |
|---|---|---|
| 2.0 | 1.5 | 10.0 |
| 3.1 | 2.1 | 12.5 |
| 1.8 | 1.0 | 9.0 |
| 2.5 | 1.7 | 11.0 |
| 3.0 | 2.3 | 13.0 |
1. 拟合模型并计算参数
通过最小二乘法拟合模型,得到系数的估计值:
β^0=5.2,β^1=1.3,β^2=0.8
\hat{\beta}_0 = 5.2, \quad \hat{\beta}_1 = 1.3, \quad \hat{\beta}_2 = 0.8
β^0=5.2,β^1=1.3,β^2=0.8
协方差矩阵 Σ(β^)\Sigma(\hat{\beta})Σ(β^) 为:
Σ(β^)=[0.250000.160.0400.040.09]
\Sigma(\hat{\beta}) =
\begin{bmatrix}
0.25 & 0 & 0 \\
0 & 0.16 & 0.04 \\
0 & 0.04 & 0.09
\end{bmatrix}
Σ(β^)=0.250000.160.0400.040.09
提取 β1\beta_1β1 和 β2\beta_2β2 的协方差矩阵:
Σ(β^1,β^2)=[0.160.040.040.09]
\Sigma(\hat{\beta}_1, \hat{\beta}_2) =
\begin{bmatrix}
0.16 & 0.04 \\
0.04 & 0.09
\end{bmatrix}
Σ(β^1,β^2)=[0.160.040.040.09]
2. 构造 Wald 检验统计量
根据多参数 Wald 检验公式:
W=(β^−β0)TΣ(β^)−1(β^−β0)
W = (\hat{\beta} - \beta_0)^T \Sigma(\hat{\beta})^{-1} (\hat{\beta} - \beta_0)
W=(β^−β0)TΣ(β^)−1(β^−β0)
对联合检验 H0:β1=0,β2=0H_0: \beta_1 = 0, \beta_2 = 0H0:β1=0,β2=0:
β^−β0=[1.30.8]
\hat{\beta} - \beta_0 =
\begin{bmatrix}
1.3 \\
0.8
\end{bmatrix}
β^−β0=[1.30.8]
计算 WWW:
W=[1.30.8][0.160.040.040.09]−1[1.30.8]
W =
\begin{bmatrix}
1.3 & 0.8
\end{bmatrix}
\begin{bmatrix}
0.16 & 0.04 \\
0.04 & 0.09
\end{bmatrix}^{-1}
\begin{bmatrix}
1.3 \\
0.8
\end{bmatrix}
W=[1.30.8][0.160.040.040.09]−1[1.30.8]
协方差矩阵的逆为:
Σ−1=[6.67−2.96−2.9611.85]
\Sigma^{-1} =
\begin{bmatrix}
6.67 & -2.96 \\
-2.96 & 11.85
\end{bmatrix}
Σ−1=[6.67−2.96−2.9611.85]
因此:
W=[1.30.8][6.67−2.96−2.9611.85][1.30.8]
W =
\begin{bmatrix}
1.3 & 0.8
\end{bmatrix}
\begin{bmatrix}
6.67 & -2.96 \\
-2.96 & 11.85
\end{bmatrix}
\begin{bmatrix}
1.3 \\
0.8
\end{bmatrix}
W=[1.30.8][6.67−2.96−2.9611.85][1.30.8]
经过矩阵运算:
W=13.47
W = 13.47
W=13.47
3. 假设检验
在 H0H_0H0 下,Wald 检验统计量 WWW 服从 χ22\chi^2_2χ22 分布(自由度 k=2k = 2k=2)。设显著性水平 α=0.05\alpha = 0.05α=0.05,查表得:
χ22(0.05)=5.991
\chi^2_2(0.05) = 5.991
χ22(0.05)=5.991
4. 检验结论
由于 W=13.47>5.991W = 13.47 > 5.991W=13.47>5.991,我们拒绝原假设 H0H_0H0。这表明 X1X_1X1 和 X2X_2X2 中至少有一个对 YYY 有显著影响。
5. 总结
通过这个案例,我们展示了如何在单参数和多参数情形下应用 Wald 检验。Wald 检验是一种直接利用参数估计值及其协方差矩阵的工具,尤其适用于线性回归和广义线性模型中的显著性检验。
672

被折叠的 条评论
为什么被折叠?



