一、概念 什么是特征选择?
从数据集的全部特征中选取一个特征子集的过程被称为特征选择
二、基本流程
2.1子集产生
2.2子集评估
停止条件
2.3子集检验
三、过滤式方法
3.1常用特征选择统计量
3.1.1方差阈值
3.1.2Pearson相关
3.1.3距离计算
统计分量越大,特征越重要
3.1.4信息熵
信息增益越大特征越重要
四、产生特征子集的搜索策略
4.1启发式搜索策略-贪心算法
前向搜索 后向搜索’ 双向搜索
4.2.1 前向搜索
4.2.2 后向搜索
4.2.3. 双向搜索
五、封装式方法
5.1过程
5.2相应指标
5.3递归信息的消除
六、嵌入式方法
6.1概念
6.2方法
正则化
基于树的模型
6.2.1正则化
LI范数更易于获得“稀疏”解,即求得的w会有更少的非零分量
6.2.2基于树的模型
6.2.2判断指标
平均不纯度
平均精确度