为什么Kaggle对找工作有帮助?如何入门?没有项目经验怎么办?

目录:

一:Kaggle是什么?

二:什么人会使用Kaggle?参赛者主要分为下面两种

1.一种是以奖金和排名为目的,包括靠奖金为生的职业Kaggler

2.一种就是以提升相关技能和背景为目的业余爱好者甚至在校学生了

三:在Kaggle上做项目对你找工作有什么用?

1.用Kaggle项目经验弥补你没有工作经验的不足

2.Kaggle的Profile是你能力的证明

四:零基础如何入门Kaggle?

1.掌握一门数据分析语言

2.从练习项目开始

3.我的排名低,怎么办?

五:一个入门的例子:手把手教会你入门Kaggle

1.第一步当然是注册一个Kaggle账号

2.泰坦尼克号案例手把手入门

六:推荐网站平台

1.Getting Started【MDN web docs】

2.AI Studio 集代码环境/算法算力/数据集一站式开发平台


Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台

从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;

从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。

 

除此之外,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。

 

从某种角度来讲,可以把它理解为一个众包平台,类似国内的猪八戒。

但是不同于传统的低层次劳动力需求,Kaggle一直致力于解决业界难题,因此也创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。

 

https://www.kaggle.com/即可进入Kaggle主页,网站有这么几个版块:
1、竞赛competitions
2、数据datasets
3、代码kernels
4、讨论区 Discussion
5、在线课程学习learn

今天偶然读到一篇文章,感觉很有用分享给大家

毕竟是转载分享的,我就帮作者推荐一下他的微信公众【里面有很多文章和资料大礼包】

 

 

一:Kaggle是什么?

Kaggle 是一个流行的数据科学竞赛平台

由 Goldbloom 和 Ben Hamner 创建于 2010 年(官网地址:Your Home for Data Science)

为什么这两个家伙要创立这样一个平台呢?

数据科学社区一直有这样一个难题:对于同一个问题,可以有多个模型来解决,但是研究者不可能在一开始就了解哪些模型是最好的。

Kaggle就是为了解决这样的问题诞生的,它试图通过众包的形式来解决这一难题。纳尼,数据科学还能众包,那啥是众包呢?

众包是一对多的关系,假如猴子我有一个问题,我可以把这个问题发布到网站上,然后很多人看到了这个问题,其中有10个人给出了这个问题的答案,这样我就有10个答案了 (对应机器学习中的模型)。我选出排名前3的答案,拿出100万奖励这3个人。现在的猪八戒网站,滴滴打车,知乎本质上都是众包模式。(知乎的点赞模式其实就是一种奖励:社交认同感)

 

扯远了,回到Kaggle上来。在这个平台上,企业和研究者可在其上发布数据和问题,并提供奖金给能解决问题的人。多个数据分析相关的能人志士在其上进行竞赛以产生最好的模型来解决问题。进而使数据科学成为一场运动。

 

这就好比,金庸小说里的华山论剑,吸引了江湖各大有武功的人前来。同样的,Kaggle就是数据科学领域的“华山论剑”,吸引了来自数据分析,机器学习,深度学习等领域的人。

Kaggle 官方表示,该社区目前在全世界范围内有超过 85 万的数据科学家用户。2017年3月谷歌收购了Kaggle。谷歌云机器学习与人工智能首席科学家李飞飞说:人工智能的发展需要数据民主化以及越来越多的数据和模型,这是我们对 Kaggle 高度重视及收购的原因。

 

二:什么人会使用Kaggle?参赛者主要分为下面两种

1.一种是以奖金和排名为目的,包括靠奖金为生的职业Kaggler

这些人有丰富的数据分析,机器学习工作经验的业内人士。

2.一种就是以提升相关技能和背景为目的业余爱好者甚至在校学生了

这类型人有一定技术能力,但经验欠缺,是想从中进行学习和锻炼的“长江后浪”。

 

三:在Kaggle上做项目对你找工作有什么用?

1.用Kaggle项目经验弥补你没有工作经验的不足

之前有很多转行数据分析的朋友经常问的一个问题是:猴哥,我是转行,没做过相关的项目啊,根本没有经验,怎么整?

 

其实公司看你的项目经验,并不是说你要工作过,而是想通过你做的具体事情来了解,你是否有某方面的能力。

 

让别人知道你能力的最好办法不是你说了什么,而是你做了什么。

各位老铁,感谢互联网时代吧,你做了什么是可以借助互联网留下痕迹。

 

所以解决办法很简单:

把Kaggle上的项目经验写在你的简历上可以很直观的展现自己的能力,同时作为你的项目经验。

2.Kaggle的Profile是你能力的证明

Kaggle竞赛另一个有趣的地方在于每个人都有自己的Profile(个人资料),上面会显示所有你自己参与过的项目、活跃度、实时排位、历史最佳排位等,看上去非常有成就感。

同时,Kaggle作为数据科学业内享有盛名的平台,在业界拥有极高的认可度

所以如果你是想寻找相关行业的工作,当你把这个Kaggle Profile的地址放到你的求职简历里,会被优先录取 

正如有个创始人招聘这么说过

写上参加过Kaggle比赛,我会看简历。

得过一次10%,我会给电话面试。

得过2次或者以上10%,我会给on site面试。

得过一次前10,我们会谈笑风生。

(在 Kaggle 上一次比赛的结果除了排名以外,还会显示三挡: Prize Winner,10% , 25% 。所以刚刚接触 Kaggle 的人很多都会以 25% 或是 10% 为目标。)

 

现在你已经知道在Kaggle上做项目对你人生的重要意义了。那么接下来的问题就来了。

 

四:零基础如何入门Kaggle?

1.掌握一门数据分析语言

Python和R都可以,如果是新手,建议从Python开始

不知道如何开始的,可以看这个教程数据分析入门(Python) | 猴子社群第2期闯关游戏怎么玩?

2.从练习项目开始

Kaggle上的项目竞赛分成下面4个最常见的类别

 

1)Featured:这些通常是由公司、组织甚至政府赞助的,奖金池最大。

 

2)Research:这些是研究方向的竞赛,只有很少或没有奖金。它们也有非传统的提交流程。

 

3)Recruitment:这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。

 

4)Getting Started(练习项目):这些竞赛的结构和 Featured 竞赛类似,但没有奖金。它们有更简单的数据集、大量教程。

如果你从未独立做过一个数据分析相关的项目,就从Getting Started(练习项目)开始入门。

练习项目不仅难度低,并且还有很多社区创造的教程,你可以用来对比改善自己的测试结果,从中进行提高。

比如经典的泰坦尼克号项目

3.我的排名低,怎么办?

有些初学者担心低排名出现在他们的个人资料(Profile)中,结果一直没有开始。但是,排名低真的没什么关系,重要是的你已经开始有做数据分析、机器学习相关的能力。没人会因此贬低你,因为每个人在一开始都是初学者。

罗马不是一天建成的,你可以按下面这个过程不断学习新的知识,循序渐进的提高排名:

 

第1步:先提交一个最基本的解决方案,熟悉基本的流程

第2步:学习新知识,优化方案进入排名前 50%

第3步:继续学习新知识,优化方案进入排名前 25%

第4步:继续学习新知识,优化方案进入排名前 10%

 

五:一个入门的例子:手把手教会你入门Kaggle

1.第一步当然是注册一个Kaggle账号

按下图步骤操作即可

注册后会收到一封确认邮件,如果没有收到看看垃圾邮箱中有没有,我的就被放到垃圾邮箱中了。 

2.泰坦尼克号案例手把手入门

入门的三部曲

1)如何用通俗易懂的话明白什么是机器学习?

机器学习入门:简单线性回归

2)机器学习入门:逻辑回归

3)机器学习入门:Kaggle与泰坦尼克号项目

 

六:推荐网站平台

1.Getting Started【MDN web docs】

https://developer.mozilla.org/zh-CN/

 

2.AI Studio 集代码环境/算法算力/数据集一站式开发平台

https://aistudio.baidu.com/aistudio/index

 

百度AI Studio,一站式开发平台,集合AI教程/代码环境/算法算力和数据集,无需安装.空间/计算资源全部免费,在线云计算编程环境,快速开展深度学习项目.

 

参考地址:

kaggle 相关知识汇总(转)

https://blog.csdn.net/appleyuchi/article/details/99823019

 

Kaggle | (一)入门指南

https://www.jianshu.com/p/ce5cbf592711

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是基于Kaggle上的"San Francisco Crime Classification"数据集的预测分析代码,使用了Python和经典的机器学习算法。 ```python #导入必要的库 import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncoder #读取数据 train = pd.read_csv('train.csv', parse_dates=['Dates']) test = pd.read_csv('test.csv', parse_dates=['Dates']) #数据预处理 le_category = LabelEncoder() train['Category'] = le_category.fit_transform(train['Category']) train['DayOfWeek'] = train['Dates'].dt.dayofweek train['Hour'] = train['Dates'].dt.hour train['Month'] = train['Dates'].dt.month test['DayOfWeek'] = test['Dates'].dt.dayofweek test['Hour'] = test['Dates'].dt.hour test['Month'] = test['Dates'].dt.month #特征选择 features = ['X', 'Y', 'DayOfWeek', 'Hour', 'Month'] X_train = train[features] X_test = test[features] y_train = train['Category'] #模型训练与预测 from sklearn.ensemble import RandomForestClassifier rfc = RandomForestClassifier(n_estimators=100) rfc.fit(X_train, y_train) y_pred = rfc.predict_proba(X_test) #生成提交结果数据 submission = pd.DataFrame(y_pred, columns=le_category.classes_) submission.set_index(test['Id'], inplace=True) submission.to_csv('submission.csv', index_label='Id') ``` 在这里,我们使用了一个随机森林分类器,对犯罪类型进行预测。在数据预处理中,我们将分类变量编码为数字,并添加了一些新的特征。在特征选择中,我们选择了X、Y坐标、星期几、小时和月份作为特征。通过训练和预测,我们得到了一个预测矩阵,它包含了每个测试样本属于每种犯罪类型的概率。最后,我们将结果保存到submission.csv文件中,以便提交给Kaggle竞赛。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值