BAT机器学习特征工程工作经验总结(四)如何做特征选择

最新推荐文章于 2022-10-21 17:03:03 发布

weixin_bread2008

最新推荐文章于 2022-10-21 17:03:03 发布

阅读量687

点赞数

分类专栏：机器学习工作经验总结文章标签：特征工程特征选择机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42736194/article/details/83051487

版权

本文总结了在BAT公司进行机器学习时的特征工程经验，强调了特征选择的重要性。介绍了过滤型、包裹型和嵌入型三种特征选择方法，包括相关系数、正则化（L1和L2）、递归特征删除等策略，并指出特征选择与降维的区别，帮助提升模型预测性能。

摘要由CSDN通过智能技术生成

在特征工程部分，我们构建了一系列位置信息相关的特征、组合特征、成交时间特征、排序特征、类别稀疏特征等，这么多维特征一方面可能会导致维数灾难，另一方面很容易导致过拟合，需要做降维处理，降维方法常用的有如 PCA，t-SNE 等，这类方法的计算复杂度比较高。并且根据以往工作经验，PCA 或 t-SNE 效果不是特别好。

除了采用降维算法之外，也可以通过特征选择来降低特征维度。

特征选择的方法很多: 最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1， L2)、基于模型的特征排序方法。

用正则化来做特征选择，L1,L2，对于特征维度很大的情况，作L1, 对于特征维度很小的情况，作L2。

比较高效的是最后一种，即基于学习模型的特征排序方法，这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的，因此我们采用这种方法，基于 xgboost 来做特征选择，xgboost 模型训练完成后可以输出特征的重要性，据此我们可以保留 Top N 个特征，从而达到特征选择的目的。

还有其他的总结。

特征选择，就是从多个特征中，挑选出一些对结果预测最有用的特征。因为原始的特征中可能会有冗余和噪声。
　　
特征选择和降维有什么区别呢？前者只踢掉原本特征里和结果预测关系不大的，后者做特征的计算组合构成新特征。

3.1 过滤型
方法：  评估单个特征和结果值之间的相关程度，排序留下Top相关的特征部分。

-评价方式：通过方差选择法、Pearson相关系数，相关系数法、卡方检验法、互信息法来对特征进行评分，设定阈值或者待选择的阈值的个数来选择。

最低0.47元/天解锁文章

weixin_bread2008

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。