进入Kaggel竞赛前2%的秘方

最新推荐文章于 2024-04-06 10:48:13 发布

ronghuaiyang

最新推荐文章于 2024-04-06 10:48:13 发布

阅读量206

点赞数

本文链接：https://blog.csdn.net/u011984148/article/details/99439369

版权

请点击上方“AI公园”，关注公众号

作者：Abhay Pawar

编译：ronghuaiyang

kaggle的比赛有趣又让人上瘾！过去的几年里，我开发了一些探索特征和构建更好的机器学习模型的标准的方法。这些简单而强大的技巧帮助我在Instacart Market Basket Analysis竞赛中进入了2%，而且在kaggle之外，也用的很好。让我们开始吧。

创建任何一个基于数字数据的监督学习模型时候，其中一个最重要的因素就是理解特征。通过查看模型中的局部依赖性可以帮助我们理解模型的输出是如何根据输入来改变的。

640?wx_fmt=png

但是，问题在于，这样的图是在训练完模型以后创建的。如果我们可以从训练数据中直接得到这样的图，就可以帮助我们更好的理解这些数据。事实上，可以帮助你以下的这些事情：

特征理解
确定噪声特征（最有趣的部分）
特征工程
特征重要性
特征调试
渗透检测和理解
模型的监测

为了让这些更加容易接受，我决定把这些技术放在一个python包里，叫做featexp，在这篇文章里，我们会看到如何用这个东西来进行特征探索。我们将会使用Home Credit Default Risk比赛的数据。比赛的任务是使用给定的数据预测违约的人。

1.特征理解

640?wx_fmt=png

如果目标是个二值的，散点图没什么用，因为这些点要么是1，要么是0。对于连续型的目标，数据点太多的话，又很难理解目标和特征之间的趋势。Featexp可以创建一个更好的图来处理这个问题，我们试试看：

640?wx_fmt=png

Featexp创建了一个等间隔的bins的数值特征，然后计算每个bin的均值，然后画到左边，在我们的例子中，目标的均值代表了违约的概率。这个图告诉我们，负值越大（越往左，年龄越大）的人，违约的概率越小。这个图帮助我们理解模型和数据，告诉我们数据如何影响模型的结果。右边的图显示了每个bin中的客户的数量，所有年龄段的人几乎是相等的。

1.确定噪声特征

噪声特征会导致过拟合，确定噪声特征并不容易。在featexp中，可以通过一个测试集对比训练和测试的特征趋势来确定噪声特征。这个测试集并不是真正的测试集，而是已知标签的数据。

640?wx_fmt=png

Featexp计算了两个度量并显示了出来，帮助确认噪声：

趋势相关性（在测试图中）：如果特征和目标在训练集和测试集上趋势不一样，有可能会导致过拟合。趋势相关性帮助我们理解训练集和测试集的相似度，bins的平均目标值用来计算这种相关性。上面的特征训练集和测试集有99%的相关性，并不是噪声。
趋势改变：突然的和重复的趋势的方向的改变可能意味着噪声。但是当某个bin中的数量和其他的bin相差特别大的时候，也可能发生这种情况，这样的话，违约率就不能拿来和其他的bin做比较。

下面的特征就没有在训练和测试集上保持相同的趋势，趋势的相关系为85%。这两个度量可以用来丢弃噪声特征。

640?wx_fmt=png

丢弃低的趋势相关性的特征是很有用的，特别是在特征非常多而且彼此有相关性的时候。这样可以减少过拟合，而且其相关的特征也可以避免信息的损失。但是也不要丢弃掉太多的特征，因为容易降低performance。你不能使用特征的重要性来确定噪声特征，因为这些特征可能是非常重要的，但是确实是噪声。

使用不同时段的数据会表现的比较好，我们要确认一下是否这个特征在时间上有某些趋势。

get_trend_stats()函数返回一个dataframe，带有每个特征的趋势的相关性和改变情况。

640?wx_fmt=png

我们来使用低的趋势相关性来实际的丢弃几个特征，看看结果是不是有提升。

640?wx_fmt=png

我们可看到，丢弃特征的趋势相关性的阈值越高，Leaderboard上的AUC的分数越高。有趣的是，在测试集上的改变并不像在Leaderboard上一样。修改你的验证策略，让本地的测试AUC和LB的AUC保持一致，也是很重要的。完整的代码可见 featexp_demo notebook。

3. 特征工程

通过观察这些图，你可以创造更好的特征，对数据更好的理解可以帮助你进行更好的特征工程。但是，另外也可以帮助你提高已有的特征。我们看一下另外一个特征EXT_SOURCE_1:

640?wx_fmt=png

具有高的 EXT_SOURCE_1的值的用户具有低的违约率。但是，在第一个bin的时候，并不是这种趋势，在这个bin里面，只有一个负值，-99.985，而且量很大。这个就暗示了这个是个特殊的值，并不是跟随整体的趋势。幸运的是，非线性的模型在学习这种关系的时候不会有任何问题，但是，对于线性模型，如逻辑回归，这种特殊值和空值可以通过具有相似的违约率的bin来补全，而不是直接通过均值来补全。

4. 特征重要性

Featexp也帮助你测定特征的重要性。DAYS_BIRTH 和EXT_SOURCE_1 都有很好的趋势。但是，EXT_SOURCE_1 的群体集中在特定的bin中，表示特征对大部分的用户有着同样的信息，无法很好的区分他们。这个告诉我这个可能不如DAYS_BIRTH重要。基于XGBoost模型的特征重要性，DAYS_BIRTH 实际上比EXT_SOURCE_1更加重要。