Datawhale夏令营之机器学习实践(三)

前情提要

Datawhale夏令营之机器学习实践(一)

Datawhale夏令营之机器学习实践(二)

本次任务

任务三:

  1. 尝试高阶上分,提升自己的实践技巧和代码能力;

  2. 记录自己的上分思考和心得;

  3. 提交任务三打卡,查看个人成绩排行榜。

竞赛上分技巧

基于以下视频链接编写。

【AI夏令营】竞赛常见上分技巧

竞赛主要模块

如图所示,竞赛的模块大致分为以下部分。每一个模块其实就对应着一个流程。

一个竞赛中最重要的就是要理清数据之间的关系。对数据有一个好的认知有助于我们之后特征工程的建立。

鉴于很多比赛都有提交次数限制,所以采用一定方法的线下验证是很有必要的。

视频里还介绍了数据的探索性分析(EDA)。对于数据的基本属性,我们需要了解的是:数据类型大小;数据是否干净(明显错误的数据,例如身高5m...);标签是什么类型的,是否需要格式转换?

同时,我们也需要关注线下验证集的构建,是否可能会穿越?是否存在某些奇异的现象?为之后构建特征工程做准备。

在比赛的过程中可能会遇到一些明显有误的数据,对于这些数据,我们也应该做出相应的对策。如:对于离群点数据,常见的做法是将其当作缺失值进行处理、或删掉离群点、或所在样本使用统计值进行填充;对于缺失值,我们也应该根据不同的情况来进行灵活的填充处理;对于错误值,我们可以考虑删去或者填充nan等等。

不同数据也有不同的特征,特征的分类如图所示。我们可以根据不同的题目来进行相应的特征处理。 

对于特征的选择,视频里也有讲究,介绍了三种选择特征的方法。要对比多种筛选方式,来选取最好的。

 必备模型有XGBoost、LightGBM、NN。比赛竞争激烈,采用模型融合也是很有必要的。

上分心得

我们团队自己经过了多次调参提交以后,得到的分数依然不比baseline的高(baseline太强了)。不过无论结果如何,总归是一次难忘的尝试经历。这次夏令营拓宽了我的眼界,让我学到了许多有关机器学习方面的新知识,也提高了我对机器学习的兴趣。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值