统计基础（十）特征选择

最新推荐文章于 2023-11-28 10:59:20 发布

数据民媛

最新推荐文章于 2023-11-28 10:59:20 发布

阅读量1.8k

点赞数

分类专栏： GC of Data Science introduction of statistic 文章标签：统计学特征值分解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HoWingjan/article/details/112978634

版权

GC of Data Science 同时被 2 个专栏收录

18 篇文章 8 订阅

订阅专栏

introduction of statistic

8 篇文章 0 订阅

订阅专栏

model selection

1.F检验
2. 特征选择

1.F检验

F检验（F-test），最常用的别名叫做联合假设检验（英语：joint hypotheses test），此外也称方差比率检验、方差齐性检验。它是一种在原假设（null hypothesis, H0）之下，统计值服从F-分布的检验。

F检验有两种类型:

整体F检验——检验模型的有用性
部分F检验——检验线性约束

1.1 ANOVA table

方差分析用于两个及两个以上样本均数差别的显著性检验
RegSS + RSS = TSS
(p – 1) + (n – p) = (n – 1)
RegMS + MSE ≠ Sy^2
在这里插入图片描述

1.2 整体F检验Overall F test

——检验模型的有效性
拒绝H0表明回归高度显著;即，至少一个预测变量为因变量的预测提供了重要信息。
在这里插入图片描述

1.3 部分F测试Partial F test

——检验线性约束
在这里插入图片描述

2. 特征选择

常见的选择算法有正向选择算法、反向选择算法和逐步选择算法。

奶酪品尝数据案例
数据来源于维多利亚拉筹伯山谷的切达干酪生产。最终产品的味道与奶酪中几种化学物质的浓度有关。
因变量：taste Tasters’ ratings
自变量：Acetic Acetic acid in cheese；H2S Hydrogen sulphide in cheese ；Lactic Lactic acid in the cheese.

2.1 逆向消除法 Backward Elimination

首先包含了所有的特征，然后每个特征都尝试去删除，测试删除的哪个特征对模型准确性有最大的提升，最终删掉对模型提升最高的一个特征。如此类推，直到删除特征并不能提升模型为止。
一般来说，去掉p值大于0.05的特征
在这里插入图片描述
第一次约简算法:

H2S和lactic不能被降低，否则比整个模型的契合度差很多(p值分别为0.004和0.031)。
然而，acetic的缺失几乎没有影响(例如在5%征时)。在模型拟合方面(部分p值为0.942)，愚者省略此变量。
如果有一个以上的变量p值大于0.05，那么我们就去掉了对应的p值最大的协变量。

第二遍约简算法:

协变量H2S和lactic都不能从模型中去除而不造成重要的拟合损失。
因此，数据的“最佳”模型(根据显著性水平为5%的逆向选择)为 E[taste] = - 27.59 + 3.95 · H2S + 19.89 · Lactic.

2.2 前向选择变量法 forward variable selection

从不包含特征的模型开始，即m =∅。
对每个变量依次考察从当前模型中添加变量的效果。
添加信息最丰富/重要的变量，除非该变量不提供有关响应的重要信息。
转到步骤2。只有当不包括的变量都不重要时才停止

2.3 逐步选择变量法 stepwise variable selection

从一些模型开始，通常是空模型(没有解释变量)或完整模型(有所有变量)。
对于当前模型中的每个变量，研究去除它的效果。
删除信息最少的变量，除非该变量仍然提供有关响应的重要信息。

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。