15分钟进击Kaggle大赛top2%

 

大数据文摘出品

编译:小七、宁静

 

对于从事机器学习行业的人来说,Kaggle比赛可能大家都耳熟能详,它是一个流行的数据科学竞赛平台。

 

今天文摘菌连线到一个Kaggle比赛top2%得主,让他和读者分享一下他的比赛经验吧!

 

读者朋友们,你们好,我是Abhay Pawar,平时热衷于参加一些机器学习的比赛,不知道你以前有没有听过kaggle比赛,如果你参加过就会知道这个比赛是非常有趣的,而且很容易让人上瘾。这几年,我开发了一套标准流程来探索特征变量,以便建立更好的机器学习模型。正是这些简单而强大的技巧让我在Instacart Market Basket Analysis 比赛中获得了前2%的名次,不单单在竞赛中,我在Kaggle之外也经常使用到它们,接下来就开始我的分享吧!

 

基于数值型数据去建立监督学习模型的一个最重要的方面,就是要很好地理解这些特征。查看模型的局部依赖关系图,如下图所示,有助于理解模型的输出如何随特征的变化而变化。

但是,这些图存在的问题是,它们是使用经过训练的模型创建的,如果我们可以直接从训练数据创建这些图,就可以帮助我们更好地理解底层数据。事实上,它是可以帮助你做以下工作的:

 

  • 特征理解

  • 识别噪声特征(这是最有趣的部分!)

  • 特征工程

  • 特征重要性

  • 功能调试

  • 遗漏检测和理解

  • 模型监控

 

为了便于使用,我打算使用python中的featexp包实现它,同时将介绍如何将其用于特征探索,我们将利用Kaggle上的Home Credit Default Risk竞赛中的数据集作为例子,该竞赛的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值