数据预处理--特征选择(过滤法)

方差过滤是通过特征方差筛选特征的常用方法。VarianceThreshold类用于删除方差低于阈值的特征,有助于减少冗余或无用特征。若希望保留特定数量的特征,可以通过设定方差阈值,例如选择方差中位数作为阈值来减少特征数量。
摘要由CSDN通过智能技术生成

在这里插入图片描述

方差过滤

VarianceThreshold

这是通过特征本身的方差来筛选特征的类。比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。所以无论接下来的特征工程要做什么,都要优先消除方差为0的特征。VarianceThreshold有重要参数threshold,表示方差的阈值,表示舍弃所有方差小于threshold的特征,不填默认为0,即删除所有的记录都相同的特征
在这里插入图片描述
可以看见,我们已经删除了方差为0的特征,但是依然剩下了708多个特征,明显还需要进一步的特征选择。然而,如果我们知道我们需要多少个特征,方差也可以帮助我们将特征选择一步到位。比如说,我们希望留下一半的特征,那可以设定一个让特征总数减半的方差阈值,只要找到特征方差的中位数,再将这个中位数作为参数threshold的值输入就好了:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
资料参考:菜菜的机器学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值