前情提要
本次任务
任务三:
|
竞赛上分技巧
基于以下视频链接编写。
【AI夏令营】竞赛常见上分技巧
竞赛主要模块
如图所示,竞赛的模块大致分为以下部分。每一个模块其实就对应着一个流程。
一个竞赛中最重要的就是要理清数据之间的关系。对数据有一个好的认知有助于我们之后特征工程的建立。
鉴于很多比赛都有提交次数限制,所以采用一定方法的线下验证是很有必要的。
视频里还介绍了数据的探索性分析(EDA)。对于数据的基本属性,我们需要了解的是:数据类型大小;数据是否干净(明显错误的数据,例如身高5m...);标签是什么类型的,是否需要格式转换?
同时,我们也需要关注线下验证集的构建,是否可能会穿越?是否存在某些奇异的现象?为之后构建特征工程做准备。
在比赛的过程中可能会遇到一些明显有误的数据,对于这些数据,我们也应该做出相应的对策。如:对于离群点数据,常见的做法是将其当作缺失值进行处理、或删掉离群点、或所在样本使用统计值进行填充;对于缺失值,我们也应该根据不同的情况来进行灵活的填充处理;对于错误值,我们可以考虑删去或者填充nan等等。
不同数据也有不同的特征,特征的分类如图所示。我们可以根据不同的题目来进行相应的特征处理。
对于特征的选择,视频里也有讲究,介绍了三种选择特征的方法。要对比多种筛选方式,来选取最好的。
必备模型有XGBoost、LightGBM、NN。比赛竞争激烈,采用模型融合也是很有必要的。
上分心得
我们团队自己经过了多次调参提交以后,得到的分数依然不比baseline的高(baseline太强了)。不过无论结果如何,总归是一次难忘的尝试经历。这次夏令营拓宽了我的眼界,让我学到了许多有关机器学习方面的新知识,也提高了我对机器学习的兴趣。