NEFU数据科学导论(五)特征工程2特征选取

特征选择是数据分析中的关键步骤,包括过滤式、封装式和嵌入式方法。过滤式方法利用统计量如方差阈值、Pearson相关和信息熵来评估特征重要性。启发式搜索策略如前向、后向和双向搜索用于构建特征子集。封装式方法结合学习算法直接优化模型性能,而嵌入式方法如正则化和基于树的模型在模型训练过程中处理特征选择。
摘要由CSDN通过智能技术生成

一、概念 什么是特征选择?
从数据集的全部特征中选取一个特征子集的过程被称为特征选择
二、基本流程

2.1子集产生

 

2.2子集评估

 

 停止条件

2.3子集检验

 

三、过滤式方法

 3.1常用特征选择统计量

3.1.1方差阈值

 

3.1.2Pearson相关

 

3.1.3距离计算

 

 

统计分量越大,特征越重要 

3.1.4信息熵

 

信息增益越大特征越重要 

四、产生特征子集的搜索策略

4.1启发式搜索策略-贪心算法

 

 前向搜索    后向搜索’    双向搜索

4.2.1 前向搜索

4.2.2 后向搜索

 4.2.3. 双向搜索

 五、封装式方法

5.1过程

 5.2相应指标

 

 

 5.3递归信息的消除

六、嵌入式方法 

6.1概念

6.2方法

正则化

基于树的模型 

6.2.1正则化

 

LI范数更易于获得“稀疏”解,即求得的w会有更少的非零分量
 6.2.2基于树的模型 

6.2.2判断指标

平均不纯度

 

平均精确度

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

烟雨平生9527

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值