ML之FE之FS：特征工程/数据预处理之特征筛选三大技术简介之Filter、Wrapper(基于搜索策略的三类)、Embedded)及其代码实现

一个处女座的程序猿

已于 2024-03-04 21:20:16 修改

阅读量1.2w

点赞数 9

分类专栏： ML DataScience 资深文章(前沿/经验/创新) 文章标签：分类机器学习算法特征筛选

于 2018-08-15 21:10:28 首次发布

本文链接：https://blog.csdn.net/qq_41185868/article/details/81711158

版权

资深文章(前沿/经验/创新) 同时被 3 个专栏收录

115 篇文章 15 订阅 ¥299.90 ¥399.90

订阅专栏

514 篇文章 131 订阅

订阅专栏

DataScience

326 篇文章 72 订阅

订阅专栏

本文介绍了机器学习中的特征筛选技术，包括Filter、Wrapper和Embedded三大类。Filter方法通过评价准则快速筛选特征，如方差、相关系数和卡方检验。Wrapper方法如前向选择、后向消除和递归特征消除，虽然效果好但计算成本高。Embedded方法在模型训练中自动选择特征，如正则化和基于树的模型。文中还提供了各种方法的代码实现案例。

摘要由CSDN通过智能技术生成

ML之FE之FS：特征工程/数据预处理之特征筛选三大技术简介之Filter、Wrapper(基于搜索策略的三类)、Embedded)及其代码实现

特征筛选的背景

基于评价准则划分的三种分类

1、Filter—先对特征集进行特征选择再训练学习器—最快

ML之FE：VIF(方差膨胀系数)指标的简介、计算逻辑、判断标准、案例应用之详细攻略

T2、基于度量的特征选择法

T2.1、Pearson皮尔逊相关相关系数

T2.2、基于卡方检验

ML之chi-square：卡方检验(chi-square test)的简介、代码实现、使用方法之详细攻略

ML之FE之FS：特征选择之过滤式filter—基于titanic泰坦尼克数据集利用根据卡方检验chi2(结合P值计算)、F检验(结合P值计算)、MI互信息法应用案例

T2.3、信息价值IV筛选

ML之FE：IV值/IV信息量(Information Value)指标(衡量变量的预测能力)的简介、计算逻辑、使用方法之详细攻略

ML之FE：MIC(Maximal Information Coefficient)最大互信息系数的简介、应用(python代码实现)之详细攻略

2、Wrapper包裹式/封装式——基于搜索策略的三类——选择的是“量身定做”的特征子集——比过滤式更好但耗内存

T1、全局最优秀搜索/完全搜索

T2、随机搜索——GA/SA算法

T3、启发式搜索——前向/后向

T3.1、前向选择方法—逐步增特征是寻更优

T3.2、后向选择方法—逐步减某特征寻更优

T3.3、递归式特征消除RFE

ML之FS之RFE：RFE递归特征消除算法的简介、代码实现、案例应用之详细攻略

T2.4、排列重要性/置换重要性算法PFI

XAI之PFI：PFI/Permutation排列重要性/置换重要性算法(What—哪些特征对预测的影响最大)的简介(原理/意义/优缺点/应用/改良)、常用工具包、案例应用之详细攻略

3、Embedded嵌入式——融为一体，在学习的过程中自动进行特征选择

T3.1、采用正则化相关的算法：基于L1的Lasso、基于L2的Ridge

T3.2、采用ML算法模型

T3.2.2、基于树的方法

ML之FE：风控场景之金融评分卡模型之利用LoR模型权重变量系数正负符号结合p-value/P值大小实现变量筛选

ML之FE之FS：特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/LGBM)进行特征选择(基于boston房价数据集回归预测)实现代码

ML之FE之FS：特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)案例应用

ML之FE之FS：基于titanic泰坦尼克数据集(自定义所有类别型特征统一执行特征编码)利用基于排列重要性算法Wrapper_PFI_RF和Embedded_ETC实现特征筛选应用案例

特征筛选的背景

变量选取，即特征筛选。需要对业务要有足够的理解，一般这部分费时较久。

提出问题	用户的属性/特征有千千万万个维度，比如评分卡模型，一般会选用的30个以内的特征，那么，怎样挑选这些特征呢？
为什么	(1)、减成本