百度金融的面试,一面问到了特征选择的相关问题,问我如何做特征选择,前两天又有同事问到,觉得有必要整理一下相关内容。
一、特征选择
特征选择的目的
- 提高预测准确性
- 构造效率更高的预测模型
- 能够对模型有更好的理解和解释
特征选择的方法
- 过滤式、Filter方法:给每一维的特征赋权重
- 封装式、wrapper方法:将子集的选择抽象成优化问题,对不同的组合进行比较
- 嵌入式、Embedded方法:挑选出对模型的训练有重要意义的属性
三种策略
- 从特征集中找到一个特征子集X,使评价函最大
- 给定阈值J0,从特征集中找到一个最小子集X,使得J(X)>J0
- 从特征集中找到一个特征子集X,使评价函数尽量大,子集中的特征尽量少
目标:J(X)尽量大,特征数尽量少
评价规则
1.filter方法
- 距离度量:欧氏距离
- 信息增益度量:信