Kaggle的入门指南

原文链接:https://elitedatascience.com/beginner-kaggle

如何开始使用Kaggle

接下来,我们将为您提供一个逐步的行动计划,以轻轻地提升和竞争Kaggle。

第1步:选择一种编程语言。

首先,我们建议选择一种编程语言并坚持使用它。 Python和R都在Kaggle和更广泛的数据科学社区中流行。
如果您是一个新手小白,我们建议使用Python,因为它是一种通用的编程语言,您可以从端到端使用它。

- 数据科学中R 和 Python的对比
- 如何学习Python的数据科学

第2步:了解探索数据的基础知识。

加载,导航和绘制数据的能力(即探索性分析)是数据科学的第一步,因为它可以告知您在整个模型培训中做出的各种决策。如果您选择Python的路线,那么我们推荐专门为此目的而设计的Seaborn库。它具有高级功能,可用于绘制许多最常见和最有用的图表。
Python Seaborn教程:

第3步:训练您的第一个机器学习模型。

在进入Kaggle之前,我们建议在更简单,更易于管理的数据集上训练模型。这将使您熟悉机器学习库和土地。

关键是要开始养成良好的习惯,例如将数据集拆分为单独的培训和测试集,交叉验证以避免过度拟合,以及使用适当的性能指标。

对于Python,最好的通用机器学习库是Scikit-Learn

- Python Scikit-Learn教程
- 数据科学入门

第4步:解决“入门”比赛。

现在我们准备尝试Kaggle比赛,这些比赛分为几类。最常见的是:

  • 特色(Featured) - 这些通常由公司,组织甚至政府赞助。他们拥有最大的奖池。
  • 研究(Research) - 这些都是以研究为导向,几乎没有奖金。他们还有非传统的提交流程。
  • 招聘(Recruitment) - 这些是由想聘请数据科学家的公司赞助的。这些仍然相对不常见。
  • 入门(Getting Started) - 这些结构类似于特色竞赛,但它们没有奖池。它们具有更简单的数据集,大量教程和滚动提交窗口,因此您可以随时输入它们。

“入门”比赛非常适合初学者,因为它们为您提供了一个低风险的学习环境,并且它们也得到了许多社区创建的教程的支持。在这里插入图片描述

第5步:争取最大化学习,而不是收入。

有了这个基础,现在是时候进入’特色(Featured)'比赛了。一般来说,这些将需要更多的时间和精力来排名。

出于这个原因,我们建议明智地选择你的战斗。参加比赛,让您了解符合您长期目标的技术和技术。

虽然奖金很好,但是更有价值(和可靠)的奖励将是您为自己的职业发展所获得的技能。

享受Kaggle的小贴士

最后,我们将介绍我们最喜欢的7个技巧,以便充分利用您在Kaggle的时间。

提示#1:设置增量目标。

如果你曾经玩过上瘾的视频游戏,你就会知道增量目标的力量。这就是伟大的游戏让你迷上了。每个目标都足以达到成就感,但又足够现实,可以实现。
在这里插入图片描述
大多数Kaggle参与者永远不会赢得单一比赛,这完全没问题。如果您将其设置为您的第一个里程碑,您可能会感到气馁并在尝试几次后失去动力。

增量目标使旅程更加愉快。例如:

  • 提交胜过基准解决方案的提交。
  • 在一场比赛中得分排在前50%。
  • 在一场比赛中得分排在前25%。
  • 在三场比赛中得分排在前25%。
  • 在一场比赛中得分排在前10%。
  • 赢得比赛!

此策略将允许您衡量您的进度和改进。

提示#2:查看大多数投票kernels。

Kaggle有一个很酷的功能,参与者可以提交“kernels”,这些内容是探索概念,展示技术甚至共享解决方案的简短脚本。

当你开始一场比赛或者你达到一个瓶颈时,回顾流行的kernels可以激发更多的想法。
在这里插入图片描述

提示#3:在论坛上提问。

不要害怕问“愚蠢”的问题。

毕竟,可能发生的最糟糕的事情是什么?也许你会被忽视…而这就是全部。

另一方面,您可以获得很多收益,包括来自更有经验的数据科学家的建议和指导。

提示#4:独自工作以发展核心技能。

一开始,我们建议单独工作。这将迫使您解决应用机器学习过程的每一步,包括探索性分析,数据清理,特征工程和模型培训。

如果你太早开始合作,你可能会错过发展这些基础技能的机会。

提示#5:合作突破界限。

话虽如此,在未来的比赛中合作可以成为突破界限和向他人学习的好方法。许多过去的获奖者都是团队,他们联合起来结合他们的知识。

此外,一旦掌握了机器学习的技术技能,您就可以与可能拥有更多领域知识的人合作,进一步扩大您的机会。

提示#6:请记住,Kaggle可以成为踏脚石。

记住,你不一定要成为一个长期的Kaggler。如果你发现你不喜欢这种格式,那就没什么大不了的了。

事实上,在进入自己的项目或成为全职数据科学家之前,许多人使用Kaggle作为踏脚石。

这是尽可能专注于学习的另一个原因。从长远来看,最好定位能够为您提供相关体验的比赛,而不是追逐最大奖池。

提示#7:不要担心低级别。

一些初学者从未开始,因为他们担心他们的个人资料中出现低级别。当然,竞争焦虑是一种真实现象,并不仅限于Kaggle。

然而,低排名确实不是什么大问题。没有人会评判你,因为他们一度都是初学者。

参与奖
即便如此,如果您仍然真的担心个人资料中的排名较低,您还可以创建一个单独的练习帐户来学习绳索。一旦你感到舒服,你可以开始使用你的“主帐户”来建立你的奖杯案例。

(同样,这完全没必要!)

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值