此文道出了本人学习Stacking入门级应用的心路历程。
在学习过程中感谢@贝尔塔的模型融合方法,以及如何在 Kaggle 首战中进入前 10%这篇文章(作者是章凌豪)。对于两位提供的信息,感激不尽。同时还有Kaggle上一些关于ensemble的文章和代码,比如这篇(https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python)。
本文适用于被stacking折磨的死去活来的新手,在网上为数不多的stacking内容里,我已经假设你早已经看过了上述所提到的那几篇有用的文章了。但是,看完之后内心还是卧槽的。我希望下面的内容能成为,你在学习stacking的曲折道路上的一个小火把,给你提供一些微弱的光亮。
本文以Kaggle的Titanic(泰坦尼克预测)入门比赛来讲解stacking的应用(两层!)。
数据的行数:train.csv有890行,也就是890个人,test.csv有418行(418个人)。
而数据的列数就看你保留了多少个fe