15分钟进击Kaggle大赛top2%

最新推荐文章于 2022-02-01 23:53:52 发布

BigDataDigest

最新推荐文章于 2022-02-01 23:53:52 发布

阅读量301

点赞数

分类专栏：人工智能神经网络科技

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BigDataDigest/article/details/97389261

版权

大数据文摘出品

编译：小七、宁静

对于从事机器学习行业的人来说，Kaggle比赛可能大家都耳熟能详，它是一个流行的数据科学竞赛平台。

今天文摘菌连线到一个Kaggle比赛top2%得主，让他和读者分享一下他的比赛经验吧！

读者朋友们，你们好，我是Abhay Pawar，平时热衷于参加一些机器学习的比赛，不知道你以前有没有听过kaggle比赛，如果你参加过就会知道这个比赛是非常有趣的，而且很容易让人上瘾。这几年，我开发了一套标准流程来探索特征变量，以便建立更好的机器学习模型。正是这些简单而强大的技巧让我在Instacart Market Basket Analysis 比赛中获得了前2%的名次，不单单在竞赛中，我在Kaggle之外也经常使用到它们，接下来就开始我的分享吧！

基于数值型数据去建立监督学习模型的一个最重要的方面，就是要很好地理解这些特征。查看模型的局部依赖关系图，如下图所示，有助于理解模型的输出如何随特征的变化而变化。

但是，这些图存在的问题是，它们是使用经过训练的模型创建的，如果我们可以直接从训练数据创建这些图，就可以帮助我们更好地理解底层数据。事实上，它是可以帮助你做以下工作的:

特征理解
识别噪声特征（这是最有趣的部分！）
特征工程
特征重要性
功能调试
遗漏检测和理解
模型监控

为了便于使用，我打算使用python中的featexp包实现它，同时将介绍如何将其用于特征探索，我们将利用Kaggle上的Home Credit Default Risk竞赛中的数据集作为例子，该竞赛的

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。