Kaggle 2022 年鉴发布!涵盖竞赛趋势 & 57场比赛方案汇总!

Kaggle比赛平台每年都会举办N多有价值的比赛,吸引了全球的用户参与。但作为参赛选手的你,你知道今年Kaggle最热门的比赛吗?今年最常见的比赛库是什么?

90页竞赛年鉴领取方式见文末,Kaggle年鉴内容(2022年度):

  • 比赛类型统计

  • 参赛选手统计

  • 模型&库统计

  • 比赛内容统计

比赛类型统计

2022年度举办57场比赛,共吸引了全球6万人次参加,总共提交方案84万次,总奖金162万美元。

  • Feature:工业赛赛题,难度较大

  • Research:学术赛题,难度较大

  • Playground:练习赛,难度适中

  • Analytics:数据分析赛

  • Getting Started:入门赛,难度较低

2b8a20c9dab2c677bf90af493fff89b0.png

  • Kernel赛题:通过Notebook提交的比赛

  • 非Kernel赛题:通过Notebook & 文件提交的比赛

12955f284c9b64c7d995d26bbdc04621.png

今年Kaggle比赛按照比赛任务可划分有7个方向,其中数据挖掘和计算机视觉占比较多:

4d977215d92b35f852f63eca3980c2f7.png

  • 大部分数据挖掘赛题来自Playground,没有比赛积分和奖牌

  • 部分视觉比赛是Kernel赛题,而所有文本赛题是Kernel赛题

  • 今年金融量化比赛比往年多,但语音识别比赛比往年少

  • 今年视觉赛题为语义分割赛题居多,纯分类赛题较少

Kaggle年度热门比赛

比赛名称比赛方向参赛人数提交次数
Ubiquant Market Prediction金融量化164616151
Santa 2022 - The Christmas Card   Conundrum组合优化131211766
Kore 2022强化学习10039971
H&M   Personalized Fashion Recommendations推荐系统8607235
UW-Madison   GI Tract Image Segmentation计算机视觉11768902
Feedback   Prize - English Language Learning自然语言处理8865984
American Express -   Default Prediction数据挖掘127816346

参赛选手统计

Kaggle平台上男性选手占比为77%,和「Coggle」公众号性别占比相同。大部分的Kaggle用户在40岁,且20 – 30之间年轻人比较多

  • 40%左右的Kaggle用户拥有硕士学历,高学历占比较多

  • Coursera是Kaggle用户最偏爱的在线学习平台

dd9457943061600f335a13eb9bc0be2e.png

acf864dfa8d5674a734a304827e414d2.png

参赛工具统计

Python是第一编程语言,其次是SQL和R。具统计Kaggle上R语言的Notebook在逐渐变少。

9045e1b0eff33057cd7b5e7701b1e24a.png

  • Jupyter Notebook是最受欢迎的IDE,其次是VSCode

  • Colab和Kaggle是最受欢迎的Notebook平台

ef3d1932e73effa88785c1772dd9bd95.png

  • 机器学习库流行排序:scikit-learn、XGBoost、LightGBM、Catboost、Caret

  • 深度学习库流行排序:TensorFlow、Keras、Pytorch、Jax

  • 可视化库流行排序:Matplotlib、Seaborn、Plotly、ggplot2

a6390b370eec5fff0a260d3fbcf1fe30.png

比赛内容汇总

f6e719758051c829e8062caec325b080.png

4add534b9d566776c7ea8e3dd817c17e.png

9b31e00bc58a94a2154f56beaeb2fc3d.png

更多内容,请查看年鉴PDF。

Kaggle学习路径

【参赛建议】:数据挖掘类型

  • 赛题难度:入门、进阶赛题居多

  • 参赛建议:适合小白入门,对机器配置要求低

  • 常见赛题方向:二分类、多分类、回归、时序预测

  • 必备Python库:Pandas、Sklearn、XGBoost、LightGBM、CatBoost

  • 常见模型:树模型和集成学习居多

93bf6eda099e51568cd63da20351a3ed.png

【参赛建议】:计算机视觉类型

  • 赛题难度:进阶和较难居多,需要GPU支持

  • 参赛建议:适合学习深度学习入门,建议以分类赛题入门

  • 常见赛题方向:图像多分类、细粒度分类、语义分割

  • 必备Python库:Pytorch、TensorFlow、timm

  • 常见模型:CNN模型、transformer模型

2d2fe5c05775d16a65e1455aa9ba55db.png


【学习资料】:XGBoost / LightGBM / CatBoost

XGBoost / LightGBM / CatBoost是高阶的树模型,是数据挖掘竞赛必备库。ü XGBoost使用案例,LightGBM使用案例,CatBoost使用案例

  • 学习难度:⭐⭐⭐⭐⭐

  • 【基础】能完成训练和与预测

  • 【进阶】能进行交叉验证进行验证和预测,能使用Early Stop

  • 【进阶】能使用GPU进行训练和预测,并对类别进行编码

  • 【进阶】能对模型进行可视化,计算特征重要性,并进行特征筛选

  • 【深入】理解模型超参数含义,会对模型进行调参

  • 【深入】能自定义损失函数与评价函数

d253147edc12098ee13aedbace9e36c0.png

 
 

f0c94844284d3eddb365eae8d1b98034.jpeg

 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值