浅谈Kaggle 当前算法趋势

最新推荐文章于 2023-12-29 01:49:40 发布

Max白

最新推荐文章于 2023-12-29 01:49:40 发布

阅读量1.1k

点赞数

文章标签： Kaggle 机器学习数据挖掘

本文链接：https://blog.csdn.net/weixin_41613790/article/details/82531801

版权

浅谈Kaggle 当前算法趋势

一年前我还在悉尼大学着实花费不少在房价预测的kaggle竞赛上，然而之后的一年，先是去聚宽做量化研究实习，接着在悉尼大学的最后一个学期我又抽风非要把商学院的物流方向读下来。于是好多次在kaggle上看到喜欢的竞赛只是头脑一热报了名，然后就没有然后了：（。近来回国找工作，同时考驾照（一直没考），终于有时间再看看kaggle。准备着手把喜欢的竞赛项目做一做，学一学；同时把最近的一些感想同时写一写。

第一篇就写写这一年来kaggle的改变和趋势吧。一年前我主要在看房价预测的项目，现在关注的两个竞赛分别是1，根据商品介绍预估商品合适价位的竞赛；2，根据贷款人信息预计贷款人还款率的竞赛。

有些趋势改变的非常明显，具体有：
1， XGboost变得少见，lightGB取代了他的位置
2， CNN，RNN模型大量使用，使用kara包的数据挖掘构架变得更加常见

还记得2017年做房产预测的时候XGboost仍旧是boosting算法的主流和最常用高级算法，它的精度当时可以说是统治boosting算法的。当时lightGB已经推出进一年了，但一直处于版本高速更新阶段，业界认为lightGB速度虽然够快，但精度不一定可以与XGboost媲美，加上人们对XGboost作者陈天奇以及其团队的认可，XGboost摇摇欲坠却大而不倒（一年前我也曾在聚宽写文章介绍过这些boosting算法，见 https://www.joinquant.com/post/6a25c1e536d65b36372e03eb82b39221?f=stydy&m=math）。然而可能XGboost的创始团队可能真的太小了，在微软以及其越磨越锋利的利器lightGB的攻势下，终究是被众多数据科学家所抛弃。

CNN，RNN被很多人使用说实话我是意想不到的，因为一年前以我对神经网络的了解，神经网络的复杂度低时，效果往往糟糕的很，复杂度高了，一般电脑又面临内存不足的问题。最近看到kaggle上的一些项目在用CNN着实让我感到震惊，下面是一篇例子：

https://www.kaggle.com/knowledgegrappler/a-simple-nn-solution-with-keras-0-48611-pl
（kaggle的网页，浏览需要翻墙）

可能有些人看不到原网页，我稍微做个介绍。原作者用mapreduce的结构处理数据，这使得数据处理速度加快，这或许是他敢使用神经网络的底气所在。先不评判结果如何，就这一改变已经足以让人吃惊，一年前在我所认识的kaggle上kara的结构虽然已然变得流行，但MapReduce大多用在逻辑回归，岭回归这些简单算法上，但很少听说RNN，LSTM会使用mapreduce加速。神经网络变得流行可不是一件简单的事，硬件制约使得复杂的神经网络难以在家用电脑上实现，这一趋势有待研究。

此外其他的算法也有变化但不大。Lasso和ridge算法仍旧经常见到，大概是因为他们简单却高速可靠吧。逻辑回归和普通线性模型依旧常常被当做对照组，可苦了这两哥们了。倒是SVM的数量减少了，这个趋势还不能确定，可能是我浏览的项目还是太少，样本不足的缘故得到的认识。

以上大致就是我最近kaggle的大致印象了，把握好趋势才能做时代的弄潮儿吗，希望其他有志参与kaggle竞赛或做数据项目的人看了本文可以少走些弯路。最近我也会持续关注kaggle竞赛，有志同道合的朋友可以多多联系。：)