lasso特征选择python_[机器学习] 特征选择简明指南

本文概述了特征选择在数据预处理中的重要性,介绍了两种方法:特征过滤和包装筛选。特征过滤包括方差阈值和单变量特征选择,如卡方检验。包装筛选利用Lasso正则化和基于决策树的特征选择,如随机森林。通过sklearn库提供了相应的Python实现。
摘要由CSDN通过智能技术生成

介绍

数据工程项目往往严格遵循着riro (rubbish in, rubbish out) 的原则,所以我们经常说数据预处理是数据工程师或者数据科学家80%的工作,它保证了数据原材料的质量。而特征工程又至少占据了数据预处理的半壁江山,在实际的数据工程工作中,无论是出于解释数据或是防止过拟合的目的,特征选择都是很常见的工作。如何从成百上千个特征中发现其中哪些对结果最具影响,进而利用它们构建可靠的机器学习算法是特征选择工作的中心内容。在多次反复的工作后,结合书本,kaggle等线上资源以及与其他数据工程师的讨论,我决定写一篇简明的总结梳理特征选择工作的常见方法以及python实现。

总的来说,特征选择可以走两条路:特征过滤(Filter methods): 不需要结合特定的算法,简单快速,常用于预处理

包装筛选(Wrapper methods): 将特征选择包装在某个算法内,常用于学习阶段

在scikit-learn环境中,特征选择拥有独立的包sklearn.feature_selection, 包含了在预处理和学习阶段不同层级的特征选择算法。

A. 特征过滤(Filter methods)

(1) 方差阈(Variance Treshhold)

最为简单的特征选择方式之一,去除掉所有方差小于设定值的特征。

在sklearn中实现:

from sklearn.feature_selection import VarianceThresholdVarianceThreshold is a simple baseline approach to feature selection. It removes all features whose variance doesn’t meet some threshol

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值