Kaggler 绝大多数都是用 Python 和 R 这两门语言的。
首先简单介绍一些关于 Kaggle 比赛的知识:
-
不同比赛有不同的任务,分类、回归、推荐、排序等。比赛开始后训练集和测试集就会开放下载。
-
比赛通常持续 2 ~ 3 个月,每个队伍每天可以提交的次数有限,通常为 5 次。
-
比赛结束前一周是一个 Deadline,在这之后不能再组队,也不能再新加入比赛。所以想要参加比赛请务必在这一 Deadline 之前有过至少一次有效的提交。
-
一般情况下在提交后会立刻得到得分的反馈。不同比赛会采取不同的评分基准,可以在分数栏最上方看到使用的评分方法。
-
反馈的分数是基于测试集的一部分计算的,剩下的另一部分会被用于计算最终的结果。所以最后排名会变动。
-
LB 指的就是在 Leaderboard 得到的分数,由上,有 Public LB 和 Private LB 之分。
-
自己做的 Cross Validation 得到的分数一般称为 CV 或是 Local CV。一般来说 CV 的结果比 LB 要可靠。
-
新手可以从比赛的 Forum 和 Scripts 中找到许多有用的经验和洞见。不要吝啬提问,Kaggler 都很热情。