Datawhale夏令营之机器学习实践（三）

珞喻路小白

已于 2023-07-30 15:34:10 修改

阅读量86

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

于 2023-07-30 15:31:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74331527/article/details/132007134

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前情提要

Datawhale夏令营之机器学习实践（一）

Datawhale夏令营之机器学习实践（二）

本次任务

任务三：

尝试高阶上分，提升自己的实践技巧和代码能力；
记录自己的上分思考和心得；
提交任务三打卡，查看个人成绩排行榜。

竞赛上分技巧

基于以下视频链接编写。

【AI夏令营】竞赛常见上分技巧

竞赛主要模块

如图所示，竞赛的模块大致分为以下部分。每一个模块其实就对应着一个流程。

一个竞赛中最重要的就是要理清数据之间的关系。对数据有一个好的认知有助于我们之后特征工程的建立。

鉴于很多比赛都有提交次数限制，所以采用一定方法的线下验证是很有必要的。

视频里还介绍了数据的探索性分析（EDA）。对于数据的基本属性，我们需要了解的是：数据类型大小；数据是否干净(明显错误的数据,例如身高5m...)；标签是什么类型的，是否需要格式转换？

同时，我们也需要关注线下验证集的构建，是否可能会穿越？是否存在某些奇异的现象？为之后构建特征工程做准备。

在比赛的过程中可能会遇到一些明显有误的数据，对于这些数据，我们也应该做出相应的对策。如：对于离群点数据，常见的做法是将其当作缺失值进行处理、或删掉离群点、或所在样本使用统计值进行填充；对于缺失值，我们也应该根据不同的情况来进行灵活的填充处理；对于错误值，我们可以考虑删去或者填充nan等等。

不同数据也有不同的特征，特征的分类如图所示。我们可以根据不同的题目来进行相应的特征处理。

对于特征的选择，视频里也有讲究，介绍了三种选择特征的方法。要对比多种筛选方式，来选取最好的。

必备模型有XGBoost、LightGBM、NN。比赛竞争激烈，采用模型融合也是很有必要的。

上分心得

我们团队自己经过了多次调参提交以后，得到的分数依然不比baseline的高（baseline太强了）。不过无论结果如何，总归是一次难忘的尝试经历。这次夏令营拓宽了我的眼界，让我学到了许多有关机器学习方面的新知识，也提高了我对机器学习的兴趣。

珞喻路小白

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Datawhale夏令营之机器学习实践（三）

Datawhale夏令营之机器学习实践的记录
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。