给面试官讲特征选择

特征选择

1. 意义

  1. 降维,减少计算量
  2. 特征优选,降低模型复杂度,符合“奥卡姆剃刀”原理

2. 方法

  1. 去除变化较小的特征
  2. 方差选择法:选择方差较大的特征
  3. PCA降维,同时可以去特征间耦合
  4. 皮尔逊相关度:选取互相独立的标签
  5. 根据可分性判据:类内类间距离、概率分布、信息熵等,每次单独计算各个特征的可分性判据,选前m个
  6. 互信息系数
  7. L1正则化,Lasso回归
  8. 树模型,根据平均不纯度减少值划分,算出每个特征对不纯度减少的贡献(缺点:对先选的特征先降低,并不一定后选的就不如先选的重要,因此要多次取平均)
  9. 随机森林随机列采样,集成学习
  10. gdbt、xgb进行特征组合,对叶子节点的类别编码(真实类别所属叶子节点编1,其余编0),后接LR继续训练(CTR常用)
  11. embdding,深度学习、NLP中常用,通过全连接组合特征,输出为两层间的参数值
  12. 最优选择算法,从M个中选n个,枚举C(n,M)种可能性
  13. SFS:每次从剩下的特征里选一个最优的
  14. SBS:第一次选全部特征,每次剔除一个最差的
  15. LR:结合SFS和SBS
  16. 遗传算法:每次选一批优选特征,进行交叉和变异,直至收敛
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值