前言
最近研究一下kaggle机器学习平台,这个凭条最大可提供16G的内存,还有CPU等资源使用,非常不错,想着来学习一下。
读取数据集
kaggle支持多种数据集,你可以自己上传数据集,也可以用别人上传的数据集,也可以用平台提供的数据集,非常多的选择,而且如果你上传的数据集跟别人是一样的,平台还会提示你,让你用已有的数据集,避免重复的数据集。
如何在kaggle上pip 库
In the kernel:
1) Setting (at the right bottom of the kernel):
Turn the internet "ON"
2) In the kernel:
!pip install yourpackage
其实就是说:
-
1、第一步,internet 打开,打开网络
这一步可能需要你验证手机号 -
2、第二步:在你的代码里 直接 输入 pip 命令来下载这些数据。
kaggle 比赛类型
目前Kaggle上的比赛类型分为以下几种,对参赛选手的门槛有不同层级的要求
1. 面向初学者:
★.Getting Started
项目难度低,非常适合入门级的参赛者用来练手,但没有奖牌或奖金,只能看到自己的排名。常年进行中的比赛有3个:
(1) Titanic
(2) House prices
(3) Digits Recognizer
这三个比赛由于常年挂在Kaggle上,数据集也未做任何更新,已经有很多baseline可以借鉴,很多参赛队伍拿到了满分或接近满分的成绩。
★.Playground
项目难度比Getting Started稍难,主要是一些趣味性的比赛,看创意而不是解决具体的研究问题,奖励可能是奖金、荣誉,不能获得奖牌。
2. 面向竞赛者:
★.Featured
是Kaggle上主要的竞赛类型,为解决商业问题而设立的比赛,奖金高竞争激烈,有金银铜牌奖励,对参赛选手的能力有一定的要求。
★.Research
致力于解决科研界学术界的前沿问题,偏向于实验性质,较难;竞争没那么激烈,通常也有奖金和金银铜牌,但有的比赛只给荣誉奖励,或者是提供参加顶会的机会。
3. 面向求职者:
★.Recruitment
赞助商为招聘数据科学家而设立的比赛,奖励就是赞助商提供的工作机会
4. 其他比较冷门的比赛类型:
★.Annual
不是严格意义上的比赛,每年两次,一次是美国大学篮球锦标赛期间的三月机器学习比赛,一次是圣诞节期间的圣诞主题优化比赛
★.Limited participation
通常是私人赛或邀请赛,例如只有master级别及以上才能参加的Master’s Competition。目前总共也就五场比赛。
有针对性地选择比赛题目。Kaggle上的比赛题目主要有这几种:data mining(数据挖掘),computer vision(计算机视觉), natural language process(自然语言处理), optimization(优化)。通过kaggle上的标签可以快速识别:
- 数据挖掘类的竞赛,其便签往往是tabular data。
- 对于NLP领域的竞赛,其往往含有text data或nlp的标签。