model selection
1.F检验
F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在原假设(null hypothesis, H0)之下,统计值服从F-分布的检验。
F检验有两种类型:
- 整体F检验——检验模型的有用性
- 部分F检验——检验线性约束
1.1 ANOVA table
方差分析用于两个及两个以上样本均数差别的显著性检验
RegSS + RSS = TSS
(p – 1) + (n – p) = (n – 1)
RegMS + MSE ≠ Sy^2
1.2 整体F检验Overall F test
——检验模型的有效性
拒绝H0表明回归高度显著;即,至少一个预测变量为因变量的预测提供了重要信息。
1.3 部分F测试Partial F test
——检验线性约束
2. 特征选择
常见的选择算法有正向选择算法、反向选择算法和逐步选择算法。
奶酪品尝数据案例
数据来源于维多利亚拉筹伯山谷的切达干酪生产。最终产品的味道与奶酪中几种化学物质的浓度有关。
因变量:taste Tasters’ ratings
自变量:Acetic Acetic acid in cheese;H2S Hydrogen sulphide in cheese ;Lactic Lactic acid in the cheese.
2.1 逆向消除法 Backward Elimination
首先包含了所有的特征,然后每个特征都尝试去删除,测试删除的哪个特征对模型准确性有最大的提升,最终删掉对模型提升最高的一个特征。如此类推,直到删除特征并不能提升模型为止。
一般来说,去掉p值大于0.05的特征
第一次约简算法:
- H2S和lactic不能被降低,否则比整个模型的契合度差很多(p值分别为0.004和0.031)。
- 然而,acetic的缺失几乎没有影响(例如在5%征时)。在模型拟合方面(部分p值为0.942),愚者省略此变量。
- 如果有一个以上的变量p值大于0.05,那么我们就去掉了对应的p值最大的协变量。
第二遍约简算法:
- 协变量H2S和lactic都不能从模型中去除而不造成重要的拟合损失。
- 因此,数据的“最佳”模型(根据显著性水平为5%的逆向选择)为 E[taste] = - 27.59 + 3.95 · H2S + 19.89 · Lactic.
2.2 前向选择变量法 forward variable selection
- 从不包含特征的模型开始,即m =∅。
- 对每个变量依次考察从当前模型中添加变量的效果。
- 添加信息最丰富/重要的变量,除非该变量不提供有关响应的重要信息。
- 转到步骤2。只有当不包括的变量都不重要时才停止
2.3 逐步选择变量法 stepwise variable selection
- 从一些模型开始,通常是空模型(没有解释变量)或完整模型(有所有变量)。
- 对于当前模型中的每个变量,研究去除它的效果。
- 删除信息最少的变量,除非该变量仍然提供有关响应的重要信息。