统计基础(十)特征选择

1.F检验

F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在原假设(null hypothesis, H0)之下,统计值服从F-分布的检验。

F检验有两种类型:

  • 整体F检验——检验模型的有用性
  • 部分F检验——检验线性约束
    在这里插入图片描述

1.1 ANOVA table

方差分析用于两个及两个以上样本均数差别的显著性检验
RegSS + RSS = TSS
(p – 1) + (n – p) = (n – 1)
RegMS + MSE ≠ Sy^2
在这里插入图片描述

1.2 整体F检验Overall F test

——检验模型的有效性
拒绝H0表明回归高度显著;即,至少一个预测变量为因变量的预测提供了重要信息。
在这里插入图片描述

1.3 部分F测试Partial F test

——检验线性约束
在这里插入图片描述

2. 特征选择

常见的选择算法有正向选择算法、反向选择算法和逐步选择算法。

奶酪品尝数据案例
数据来源于维多利亚拉筹伯山谷的切达干酪生产。最终产品的味道与奶酪中几种化学物质的浓度有关。
因变量:taste Tasters’ ratings
自变量:Acetic Acetic acid in cheese;H2S Hydrogen sulphide in cheese ;Lactic Lactic acid in the cheese.

2.1 逆向消除法 Backward Elimination

首先包含了所有的特征,然后每个特征都尝试去删除,测试删除的哪个特征对模型准确性有最大的提升,最终删掉对模型提升最高的一个特征。如此类推,直到删除特征并不能提升模型为止。
一般来说,去掉p值大于0.05的特征
在这里插入图片描述
第一次约简算法:

  • H2S和lactic不能被降低,否则比整个模型的契合度差很多(p值分别为0.004和0.031)。
  • 然而,acetic的缺失几乎没有影响(例如在5%征时)。在模型拟合方面(部分p值为0.942),愚者省略此变量。
  • 如果有一个以上的变量p值大于0.05,那么我们就去掉了对应的p值最大的协变量。

第二遍约简算法:

  • 协变量H2S和lactic都不能从模型中去除而不造成重要的拟合损失。
  • 因此,数据的“最佳”模型(根据显著性水平为5%的逆向选择)为 E[taste] = - 27.59 + 3.95 · H2S + 19.89 · Lactic.

2.2 前向选择变量法 forward variable selection

  1. 从不包含特征的模型开始,即m =∅。
  2. 对每个变量依次考察从当前模型中添加变量的效果。
  3. 添加信息最丰富/重要的变量,除非该变量不提供有关响应的重要信息。
  4. 转到步骤2。只有当不包括的变量都不重要时才停止在这里插入图片描述

2.3 逐步选择变量法 stepwise variable selection

  1. 从一些模型开始,通常是空模型(没有解释变量)或完整模型(有所有变量)。
  2. 对于当前模型中的每个变量,研究去除它的效果。
  3. 删除信息最少的变量,除非该变量仍然提供有关响应的重要信息。
    在这里插入图片描述
    在这里插入图片描述
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值