BAT机器学习特征工程工作经验总结(四)如何做特征选择

本文总结了在BAT公司进行机器学习时的特征工程经验,强调了特征选择的重要性。介绍了过滤型、包裹型和嵌入型三种特征选择方法,包括相关系数、正则化(L1和L2)、递归特征删除等策略,并指出特征选择与降维的区别,帮助提升模型预测性能。
摘要由CSDN通过智能技术生成

在特征工程部分,我们构建了一系列位置信息相关的特征、组合特征、成交时间特征、 排序特征、类别稀疏特征等,这么多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,需要做降维处理,降维方法常用的有如 PCA,t-SNE 等,这类方法的计算复杂度比较高。并且根据以往工作经验,PCA 或 t-SNE 效果不是特别好。

除了采用降维算法之外,也可以通过特征选择来降低特征维度。

特征选择的方法很多: 最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1, L2)、基于模型的特征排序方法。

用正则化来做特征选择,L1,L2,对于特征维度很大的情况,作L1, 对于特征维度很小的情况,作L2。

比较高效的是最后一种,即基于学习模型的特征排序方法, 这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的,因此我们采用这种 方法,基于 xgboost 来做特征选择,xgboost 模型训练完成后可以输出特征的重要性,据此我们可以保留 Top N 个特征,从而达到特征选择的目的。


还有其他的总结。

特征选择,就是从多个特征中,挑选出一些对结果预测最有用的特征。因为原始的特征中可能会有冗余和噪声。
  
特征选择和降维有什么区别呢?前者只踢掉原本特征里和结果预测关系不大的, 后者做特征的计算组合构成新特征。

3.1 过滤型
方法:  评估单个特征和结果值之间的相关程度, 排序留下Top相关的特征部分。

-评价方式:通过方差选择法、Pearson相关系数,相关系数法、卡方检验法、互信息法来对特征进行评分,设定阈值或者待选择的阈值的个数来选择 。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值