大数据文摘出品
编译:小七、宁静
对于从事机器学习行业的人来说,Kaggle比赛可能大家都耳熟能详,它是一个流行的数据科学竞赛平台。
今天文摘菌连线到一个Kaggle比赛top2%得主,让他和读者分享一下他的比赛经验吧!
读者朋友们,你们好,我是Abhay Pawar,平时热衷于参加一些机器学习的比赛,不知道你以前有没有听过kaggle比赛,如果你参加过就会知道这个比赛是非常有趣的,而且很容易让人上瘾。这几年,我开发了一套标准流程来探索特征变量,以便建立更好的机器学习模型。正是这些简单而强大的技巧让我在Instacart Market Basket Analysis 比赛中获得了前2%的名次,不单单在竞赛中,我在Kaggle之外也经常使用到它们,接下来就开始我的分享吧!
基于数值型数据去建立监督学习模型的一个最重要的方面,就是要很好地理解这些特征。查看模型的局部依赖关系图,如下图所示,有助于理解模型的输出如何随特征的变化而变化。
但是,这些图存在的问题是,它们是使用经过训练的模型创建的,如果我们可以直接从训练数据创建这些图,就可以帮助我们更好地理解底层数据。事实上,它是可以帮助你做以下工作的:
-
特征理解
-
识别噪声特征(这是最有趣的部分!)
-
特征工程
-
特征重要性
-
功能调试
-
遗漏检测和理解
-
模型监控
为了便于使用,我打算使用python中的featexp包实现它,同时将介绍如何将其用于特征探索,我们将利用Kaggle上的Home Credit Default Risk竞赛中的数据集作为例子,该竞赛的