ML之FE之FS:特征工程/数据预处理之特征筛选三大技术简介之Filter、Wrapper(基于搜索策略的三类)、Embedded)及其代码实现

514 篇文章 131 订阅
326 篇文章 72 订阅
本文介绍了机器学习中的特征筛选技术,包括Filter、Wrapper和Embedded三大类。Filter方法通过评价准则快速筛选特征,如方差、相关系数和卡方检验。Wrapper方法如前向选择、后向消除和递归特征消除,虽然效果好但计算成本高。Embedded方法在模型训练中自动选择特征,如正则化和基于树的模型。文中还提供了各种方法的代码实现案例。
摘要由CSDN通过智能技术生成

ML之FE之FS:特征工程/数据预处理之特征筛选三大技术简介之Filter、Wrapper(基于搜索策略的三类)、Embedded)及其代码实现

目录

特征筛选的背景

基于评价准则划分的三种分类

1、Filter—先对特征集进行特征选择再训练学习器—最快

T1、基于方差相关

ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter之利用方差阈值的特征筛选(自定义数据集/titanic泰坦尼克数据集,多种方法实现)案例实现代码

ML之FE:VIF(方差膨胀系数)指标的简介、计算逻辑、判断标准、案例应用之详细攻略

T2、基于度量的特征选择法

T2.1、Pearson皮尔逊相关相关系数

ML之FE:PCC皮尔逊相关系数(Pearson correlation coefficient)的简介、案例应用(与spearman相关系数对比及其代码实现)之详细攻略

T2.2、基于卡方检验

ML之chi-square:卡方检验(chi-square test)的简介、代码实现、使用方法之详细攻略

ML之FE之FS:特征选择之过滤式filter—基于titanic泰坦尼克数据集利用根据卡方检验chi2(结合P值计算)、F检验(结合P值计算)、MI互信息法应用案例

T2.3、信息价值IV筛选

ML之FE:IV值/IV信息量(Information Value)指标(衡量变量的预测能力)的简介、计算逻辑、使用方法之详细攻略

ML之FE:MIC(Maximal Information Coefficient)最大互信息系数的简介、应用(python代码实现)之详细攻略

2、Wrapper包裹式/封装式——基于搜索策略的三类——选择的是“量身定做”的特征子集——比过滤式更好但耗内存

T1、全局最优秀搜索/完全搜索

T2、随机搜索——GA/SA算法

T3、启发式搜索——前向/后向

T3.1、前向选择方法—逐步增特征是寻更优

T3.2、后向选择方法—逐步减某特征寻更优

T3.3、递归式特征消除RFE

ML之FS之RFE:RFE递归特征消除算法的简介、代码实现、案例应用之详细攻略

T2.4、排列重要性/置换重要性算法PFI

XAI之PFI:PFI/Permutation排列重要性/置换重要性算法(What—哪些特征对预测的影响最大)的简介(原理/意义/优缺点/应用/改良)、常用工具包、案例应用之详细攻略

3、Embedded嵌入式——融为一体,在学习的过程中自动进行特征选择

T3.1、采用正则化相关的算法:基于L1的Lasso、基于L2的Ridge

T3.2、采用ML算法模型

T3.2.2、基于树的方法

ML之FE:风控场景之金融评分卡模型之利用LoR模型权重变量系数正负符号结合p-value/P值大小实现变量筛选

RF计算特征重要度的步骤

GBDT计算特征重要度原理

T3.2.3、采用深度学习算法

案例实战应用

ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/LGBM)进行特征选择(基于boston房价数据集回归预测)实现代码

ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)案例应用

ML之FE之FS:基于titanic泰坦尼克数据集(自定义所有类别型特征统一执行特征编码)利用基于排列重要性算法Wrapper_PFI_RF和Embedded_ETC实现特征筛选应用案例


特征筛选的背景

变量选取,即特征筛选。需要对业务要有足够的理解,一般这部分费时较久

提出问题

用户的属性/特征有千千万万个维度,比如评分卡模型,一般会选用的30个以内的特征,那么,怎样挑选这些特征呢?

为什么

(1)、减成本

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值