理解赛题数据和目标,清楚评分体系。
完成赛题报名和数据下载,理解赛题的解题思路。
学习baseline方案,并成功运行提交结果。
前期准备
赛题理解的是数据竞赛的第一步,也是极其重要的一步。
赛题的理解会影响后续的特征工程以及构建模型的思路。赛题背后的思想以及赛题的业务逻辑的理解也能很大程度的增加强特征的构建,从而构建更有效的模型。
- 在开始比赛之前要对赛题进行充分的了解
读懂赛题的背景,赛题数据的来源,赛题数据的概况,对于赛题数据有一个初步了解,知道现在和任务的相关数据有哪些,其中数据之间的关联逻辑是什么样的。
背景:以医疗数据挖掘为背景
问题:多分类的问题,根据心电图感应数据预测心跳信号所属类别。使用提供的心跳信号传感器数据训练模型并完成不同心跳信号的分类的任务。
赛题数据:总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。
10万条作为训练集,2万条作为测试集A,2万条作为测试集B,同时会对心跳信号类别(label)信息进行脱敏。
id 为心跳信号分配的唯一标识
heartbeat_signals 心跳信号序列
label 心跳信号类别(0、1、2、3)
- 了解比赛的时间与比赛的规则
仔细阅读赛题说明,包括比赛的开始时间、结束时间,B榜开放时间,以及数据提交的规则,特别是有些比赛对提交的数据有详细的要求,不符合要求的数据会严重影响得分情况,同时也能根据数据提交的规则判断自己预测的数据是否合理。 - 关注相关比赛以及其它选手的分享
比赛开始后,可以关注与比赛相关的文章,加入赛题官方群与其它选手讨论以及研究其它选手的思路,仔细研究其它选手分享的思路就相当于你和其它选手进行赛题讨论,这样的讨论往往能打开你的思路,从而理解赛题的要点 - 保留不同模型的代码和结果
对于每一次构建模型的代码和运行出来的结果最好能进行保存,有的比赛需要选手提供原始模型构建代码,这个时候重头再写整个代码会比较浪费时间。不同模型预测出来的结果进行适当的融合有时候也会提分很多,成为一个提分的利器。
多分类算法常见评估指标
https://www.yuque.com/docs/share/e122e8b1-f916-4095-bb75-0acc16d1d734?# 《多分类算法常见的评估指标》
进展
第一次参加有关数据挖掘的比赛与知识,真是什么都不知道,pandas都不会用,baseline跑通了但是具体还是不太了解写法函数或者原因之类的,一点一点来吧,慢慢有所收获就行。