特征选择
1. 意义
- 降维,减少计算量
- 特征优选,降低模型复杂度,符合“奥卡姆剃刀”原理
2. 方法
- 去除变化较小的特征
- 方差选择法:选择方差较大的特征
- PCA降维,同时可以去特征间耦合
- 皮尔逊相关度:选取互相独立的标签
- 根据可分性判据:类内类间距离、概率分布、信息熵等,每次单独计算各个特征的可分性判据,选前m个
- 互信息系数
- L1正则化,Lasso回归
- 树模型,根据平均不纯度减少值划分,算出每个特征对不纯度减少的贡献(缺点:对先选的特征先降低,并不一定后选的就不如先选的重要,因此要多次取平均)
- 随机森林随机列采样,集成学习
- gdbt、xgb进行特征组合,对叶子节点的类别编码(真实类别所属叶子节点编1,其余编0),后接LR继续训练(CTR常用)
- embdding,深度学习、NLP中常用,通过全连接组合特征,输出为两层间的参数值
- 最优选择算法,从M个中选n个,枚举C(n,M)种可能性
- SFS:每次从剩下的特征里选一个最优的
- SBS:第一次选全部特征,每次剔除一个最差的
- LR:结合SFS和SBS
- 遗传算法:每次选一批优选特征,进行交叉和变异,直至收敛