kaggle 入门一些问题

前言

最近研究一下kaggle机器学习平台,这个凭条最大可提供16G的内存,还有CPU等资源使用,非常不错,想着来学习一下。

读取数据集

kaggle支持多种数据集,你可以自己上传数据集,也可以用别人上传的数据集,也可以用平台提供的数据集,非常多的选择,而且如果你上传的数据集跟别人是一样的,平台还会提示你,让你用已有的数据集,避免重复的数据集。

如何在kaggle上pip 库

In the kernel:

1) Setting (at the right bottom of the kernel):
Turn the internet "ON"

2) In the kernel:
!pip install yourpackage

其实就是说:

  • 1、第一步,internet 打开,打开网络
    这一步可能需要你验证手机号

  • 2、第二步:在你的代码里 直接 输入 pip 命令来下载这些数据。

kaggle 比赛类型

目前Kaggle上的比赛类型分为以下几种,对参赛选手的门槛有不同层级的要求

1. 面向初学者:

★.Getting Started

项目难度低,非常适合入门级的参赛者用来练手,但没有奖牌或奖金,只能看到自己的排名。常年进行中的比赛有3个:

(1) Titanic
(2) House prices
(3) Digits Recognizer

这三个比赛由于常年挂在Kaggle上,数据集也未做任何更新,已经有很多baseline可以借鉴,很多参赛队伍拿到了满分或接近满分的成绩。

★.Playground

项目难度比Getting Started稍难,主要是一些趣味性的比赛,看创意而不是解决具体的研究问题,奖励可能是奖金、荣誉,不能获得奖牌。

2. 面向竞赛者:

★.Featured

是Kaggle上主要的竞赛类型,为解决商业问题而设立的比赛,奖金高竞争激烈,有金银铜牌奖励,对参赛选手的能力有一定的要求。

★.Research

致力于解决科研界学术界的前沿问题,偏向于实验性质,较难;竞争没那么激烈,通常也有奖金和金银铜牌,但有的比赛只给荣誉奖励,或者是提供参加顶会的机会。

3. 面向求职者:

★.Recruitment

赞助商为招聘数据科学家而设立的比赛,奖励就是赞助商提供的工作机会

4. 其他比较冷门的比赛类型:

★.Annual

不是严格意义上的比赛,每年两次,一次是美国大学篮球锦标赛期间的三月机器学习比赛,一次是圣诞节期间的圣诞主题优化比赛

★.Limited participation
通常是私人赛或邀请赛,例如只有master级别及以上才能参加的Master’s Competition。目前总共也就五场比赛。

有针对性地选择比赛题目。Kaggle上的比赛题目主要有这几种:data mining(数据挖掘),computer vision(计算机视觉), natural language process(自然语言处理), optimization(优化)。通过kaggle上的标签可以快速识别:

  • 数据挖掘类的竞赛,其便签往往是tabular data。
  • 对于NLP领域的竞赛,其往往含有text data或nlp的标签。
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值