kaggle账号_kaggle | 入门教程

285078e8ee08a361de4357c0f14a0230.png

为萌新提供一份最直接的图文教程,介绍kaggle的一些基本操作,让没有任何经验的人也可以快速上手。

d96c0862015e84eaf23efc3a4b35dba4.gif 1

Join a competition

首先注册kaggle账号,登录后点Compete之后可以看到Competitions如下。

6b257f36aa9d9abd7dd99ab5895046d1.png

随便点一个进入,可以看到比赛的详细信息,Overview中可以看到该比赛要解决什么问题,感兴趣点击Join Competition加入即可。

0a0e957f88a4c6a254cfcc31d45f83bf.png

加入比赛后需要了解比赛的信息,比如比赛如何计分,比赛的时间线(什么时候结束等),对submission的要求,组织者提供了哪些数据等。下文以肺纤维化预测肺活量的比赛为例进行说明。

0376138eceaa6f3ce3587184bbed819d.png

2

Overview

Overview->Evaluation

可以看到如何对预测结果进行评价,以及预测应该是什么格式的。各个比赛的evaluation的方式不同,可能是F1 score/AUC/weighted MAE等。这是根据比赛的目的,由组织者决定的。这个比赛使用的meidcal运用中常用的Laplace Log Likelihood。这里不需要自己花时间写evaluation和生成submission文件的代码,参考其他参赛者的Notebook即可。

33ebf12f4169ec7620f1e8b2efee2c40.png

Overview->Timeline

提供了一些时间的信息,比如开始结束时间,最晚参赛的时间,最晚合并队伍的时间。

80fd263761db9a6c52009637ee4c666e.png

Overview->Code Requirements

该比赛为code competition,即你需要提交代码,由kaggle后台运行,生成prediction并计分。这类形式的比赛会规定CPU/GPU时间,以及一些其他的设置比如是否可以使用外部的数据,运行时是否能联网。

与之相对的另外一种形式是:上传submission的文件(一般是csv文件)kaggle计分。 这种形式很难发现参赛者是否有cheating的行为,如果第一名把结果分享给了另外一个人,加入随机的噪音也可能获得很好的成绩。

cbbd2738cc38d9aee98a4342b6602010.png

3

Data

组织者会在这里详细解释每一个特征是什么意思,如何收集的等信息。这些信息至关重要,要仔细读题~ 如果还有不清楚的还可以参考一些科普的notebook。

72b867ab2719c1b1270bd06eaf816c56.png

在这里点击Data Explorer中的文件或者文件夹可以对数据的有一个直观的了解,也可以单独下载某一个文件进行预览。

比如Test folder 下包括了哪些文件

3b2e46d161f95e72d16614eb6036dc1e.png

比如train.csv是什么样的,每个column的数据大概的分布什么样

413cf6303961f76a29d1043d391acc70.png

数据下载

点击Download All可下载所有的数据。如果使用kaggle提供的实例(相当于云上的一个电脑)在线运行代码则不需要下载数据。

此外命令行的下载方式使用了kaggle的API,需要提前下载一个token,这种下载方式适用于无图形界面的服务器。

e9d0428b2c3f2e775ae3612ba19c6524.png

4

Notebooks

这里可以看到其他参赛者分享的code,以notebook的形式呈现,类似于jupyter notebook允许交互和呈现图表。目前清一色的python,最近已经很少看到R的身影。推荐直接用排序看vote最高的notebook。投票最高的往往包括了基础的EDA (Exploratory data analysis)和feature engineering,里面会有很多关于该类型数据或者该领域的科普。

2c1b5dc584025414b31acef6e79f951c.png

例如第一notebook就科普了什么是肺纤维化,什么拉普拉斯log-likelyhood,如何可视化diocom文件,如何提取diocom的信息,并且对数据进行了一些初步的分析和可视化。比如第三个notebook更是详细地科普了什么是laplace log-likelihood。

996755029cb3a320f9031655b5e57966.png

notebook带分数标签的意思是如果使用该notebook可以获得相应的public leaderboard中的分数。带tpu或者gpu标签的表示该nodebook使用的运算方式,不标即为cpu

5

Run Notebooks

如果觉得某个Notebook提供了一个不错的基线模型,进入notebook后可以点击右上角Copy and Edit收入囊中,在kaggle提供的实例上编辑和运行。

709c17f6775b3c51acaf72ea5b53215d.png

Copy之后就可以编辑和运行notebook了,这里的操作和jupyter notebook一样。当然也可以自己新建一个notebook进行数据分析。

e41be42a3a7ee137a3b24b5599e1d439.png

线上运行notebook并不需要下载数据,数据的位置如下所示,可以点击进行浏览。如果notebook使用了外部的数据(即参赛者上传的数据),这个数据在你copy notebook的时候,会一起被copy过来(比如这个notebook中的osic-histogram-feature就是作者在本地计算的特征)。由于一些code competetion 对运行时间和internet access有限制,可以将pre-trained的模型或者计算好的特征上传以缩减运行时间。

997b5421232c15ee7877e645040a87f3.png

状态栏可以看到资源的使用情况

398e1bc7ef16ed914edcb237e4448d0d.png

在右侧的setting中可以设置是否使用GPU/TPU加速(kaggle提供了每周30小时的gpu使用时间!)

55a00db754ca9687f42931bcb4537b23.png

点击save version可以保存notebook,保存的notebook可以在Notebooks->Your Work找到

cc0057ce261ae9b2859bbf581b75e5eb.png

同时在Notebooks页面还可以看到当前session的信息,不用可以停止掉

8c94bdbd040efbda60d67d8c756c43ed.png

对于提交和分享notebook推荐使用Commit的保存方式方式(第二个选项),它会将所有的代码运行一遍并且生成所有的图表和output。

6b8d727323c267eca94d1a2e06cb6a2b.png

6

Submit Predictions

目录中的output的路径是submission文件生成的地方,对于只要求提交submission.csv文件的比赛,在这里下载submission.csv文件,上传提交即可。(这里需要点击刷新才能看到新生成的文件)

be1b97f69aba70050388e7673cd91240.png

对于code competition来说,首先以commit的方式保存你需要提交的notebook,到Notebooks->Your Work 

b84b6dc1798c312966e6b61d15078c08.png

f0b10a57e734f79358178fea02778590.png

点击进入想要提交的notebook(已经commit过),到底部可以看到该notebook生成的submission.csv,表示该notebook已生成符合要求的submission,点击submit,后台就会为你运行该notebook,并提交反回结果。

4467ce54c4ce8f54a1d6edac0712f5de.png

至此一个baseline submission便完成了,可在leaderboard中查看排名。

在My Submission中可以管理已经提交的结果。一个账号每天的提交次数会有限制,这个比赛的提交次数限制为每天5次。在比赛结束前可以选择2个已提交的结果为最后的submission,否则系统自动选择2个分数最好的作为最后的submission。

a674791d7096cff90504e708d53c3d8d.png

0723d0d34113750366cd1054231bfbcc.png

abf26f8a7f4d89f44c9683e4bcb54233.gif

最后不得不说的是有比赛就有培训班和cheating,相比于奖金和名次,正确的态度/心态更重要。

推荐阅读1

文摘菌,公众号:大数据文摘花钱买大腿?奖牌明码标价?含金量被质疑后,我们找Kaggle合规会聊了聊规则

推荐阅读2

关注前沿科技,公众号:量子位为了1万美元奖金,他作弊拿到Kaggle比赛第一名,之后跳去硅谷明星AI创业公司,现已被封号

cf5c8bbba9fc4d338122a1b572e82c1b.gif

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值