ML之FE之FS:特征工程/数据预处理之特征筛选三大技术简介之Filter、Wrapper(基于搜索策略的三类)、Embedded)及其代码实现
目录
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter之利用方差阈值的特征筛选(自定义数据集/titanic泰坦尼克数据集,多种方法实现)案例实现代码
ML之FE:VIF(方差膨胀系数)指标的简介、计算逻辑、判断标准、案例应用之详细攻略
ML之FE:PCC皮尔逊相关系数(Pearson correlation coefficient)的简介、案例应用(与spearman相关系数对比及其代码实现)之详细攻略
ML之chi-square:卡方检验(chi-square test)的简介、代码实现、使用方法之详细攻略
ML之FE之FS:特征选择之过滤式filter—基于titanic泰坦尼克数据集利用根据卡方检验chi2(结合P值计算)、F检验(结合P值计算)、MI互信息法应用案例
ML之FE:IV值/IV信息量(Information Value)指标(衡量变量的预测能力)的简介、计算逻辑、使用方法之详细攻略
ML之FE:MIC(Maximal Information Coefficient)最大互信息系数的简介、应用(python代码实现)之详细攻略
2、Wrapper包裹式/封装式——基于搜索策略的三类——选择的是“量身定做”的特征子集——比过滤式更好但耗内存
ML之FS之RFE:RFE递归特征消除算法的简介、代码实现、案例应用之详细攻略
XAI之PFI:PFI/Permutation排列重要性/置换重要性算法(What—哪些特征对预测的影响最大)的简介(原理/意义/优缺点/应用/改良)、常用工具包、案例应用之详细攻略
3、Embedded嵌入式——融为一体,在学习的过程中自动进行特征选择
T3.1、采用正则化相关的算法:基于L1的Lasso、基于L2的Ridge
ML之FE:风控场景之金融评分卡模型之利用LoR模型权重变量系数正负符号结合p-value/P值大小实现变量筛选
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/LGBM)进行特征选择(基于boston房价数据集回归预测)实现代码
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)案例应用
ML之FE之FS:基于titanic泰坦尼克数据集(自定义所有类别型特征统一执行特征编码)利用基于排列重要性算法Wrapper_PFI_RF和Embedded_ETC实现特征筛选应用案例
特征筛选的背景
变量选取,即特征筛选。需要对业务要有足够的理解,一般这部分费时较久。
提出问题 |
用户的属性/特征有千千万万个维度,比如评分卡模型,一般会选用的30个以内的特征,那么,怎样挑选这些特征呢? |
为什么 |
(1)、减成本 |