如何快速入门机器学习,如何加入一场Kaggle机器学习公开竞赛项目,如何免费使用Kaggle notebook 的CPU、GPU、TPU资源

Kaggle入门和竞赛初识:

了解什么是kaggle,如何加入一场竞赛,如何利用kaggle notebook免费的cpu和gpu资源

进度:

  • 了解什么是kaggle
  • 如何加入一场竞赛
  • 如何利用kaggle notebook免费的cpu和gpu资源

详细内容:

  1. 什么是Kaggle
  • Kaggle是一个全球领先的数据科学和机器学习平台,提供了一个社区和工具来帮助数据科学家和机器学习爱好者提高技能并展示成果。它是由谷歌旗下的Alphabet公司所拥有和运营。Kaggle的主要特色包括:
    • 竞赛:Kaggle以其数据科学竞赛闻名。企业和组织发布真实世界的问题和数据集,数据科学家们可以参与竞争,解决这些问题并争夺奖金和荣誉。
    • 数据集:Kaggle提供了大量的公开数据集,涵盖各种领域,如医疗健康、金融、市场营销等。这些数据集可以用来进行探索性数据分析和建模。
    • Kernels(Notebooks):Kaggle允许用户在其平台上创建和分享代码笔记本。这些笔记本是基于Jupyter Notebook的,支持Python和R语言。用户可以在上面编写、运行和分享他们的数据分析和机器学习模型代码。
    • 讨论区:Kaggle拥有活跃的社区,用户可以在讨论区中提出问题、分享见解和技巧,并与其他数据科学家互动。
  • 学习资源:Kaggle提供了各种免费的学习资源,包括教程、微型课程和博客文章,帮助用户提升数据科学和机器学习技能。 -在Kaggle上,你不仅可以锻炼自己的技术,还能与来自世界各地的顶尖数据科学家交流,获取灵感,提升自己的数据科学水平。
  1. 如何加入一场Kaggle竞赛
    侧边栏:
    Home是主页菜单,可以查看个人账户信息包括讨论、数据集、notebook、竞赛等项目
    Competitions是竞赛栏,进入后可以查看所有kaggle的竞赛项目
    Kaggle侧边菜单栏
    竞赛:
    目前kaggle包括各类型的竞赛,可以分为官方竞赛和社区竞赛,部分竞赛是有偿的,冠军获得者可以获得举办者提供的奖励,推荐参与官方的游乐场系列快速了解竞赛项目。
    当前活跃的竞赛
    开启竞赛以及创建notebook
    让我们选择Titanic游乐场竞赛开始第一场竞赛:
    游乐场系列-Titanic
  • 首先需要点击右上角的Join competition同意开源协议和竞赛要求,才能查看数据集和提交自己的项目。
  • 查看竞赛场景、要求、数据集格式、提交格式等信息,在Titanic竞赛中,我们需要搭建一个机器学习模型用于预测哪些乘客可以在沉船事故中幸存,是典型的二分类场景,通过随机森林RF、XGBOOST等模型可以取得很好的预测效果。
  • 点击右上角Submit prediction可以看到以下界面:
    在这里插入图片描述- 选择notebook创建第一个项目Kaggle notebook:
  • 在Kaggle notebook中推荐使用python语言搭建模型(默认)
    在这里插入图片描述
  • Kaggle notebook界面非常友好,是基于jupyter开发,所以功能也基本一致,通过添加CELL可以增加新的代码框,默认代码框建议保留,点击运行会自动分配CPU并创建python环境,已附带常用的机器学习库,通常不需要pip新的库,如果需要则用魔法!pip直接设定,注意需要利用os 重启核(默认3.10)。界面如下:
  • 在这里插入图片描述
  • 值得一提的是,kaggle notebook不仅为用户提供免费的CPU资源,还有每周限时的GPU资源(通常是每周30h使用时间,包括T4\P100\TPU),在右侧选用(选用后会停止核,需要点击运行自动启用):
    在这里插入图片描述
  • 因为是从竞赛项目直接创建Kaggle notebook,输入数据集是默认提供的,可以在右侧状态栏查看,并且可以快捷复制文件路径,比如**/kaggle/input/titanic/train.csv**,在代码中可以使用train = pd.read_csv()直接读取。
    在这里插入图片描述
  • 编译环境和jupyter一致,故模型代码就不再赘述,最后则是保存预测数据,需要根据竞赛项目数据要求进行保存,通常保存为submission.csv文件,不需要额外指定路劲,会默认保存到output路径中。
  • 当代码能够顺利运行后,我们可以点击右侧状态栏的submit,直接将notebook作为项目文件提交,此时kaggle会自动在相同的环境中编译运行,并自动识别保存的输出结果,并给出最终得分。比如我这里在另一个项目中提交,提交框如图(项目通常会限制提交次数,所以建议自己利用训练集交叉验证,得到理想的模型后再提交):
    在这里插入图片描述
  • 最后,可以再次进入竞赛页面,点击Leaderboard即可查看提交后的项目得到的最终分数以及排名。通常需要高度的预处理流程和多次调整的模型框架才能取得靠前的排名,但有时会存在部分团队利用测试集反复验证模型(针对测试集的非法调整,因为评分用的测试集通常不会改变)从而取得完美的精度。
    在这里插入图片描述

以上就是Kaggle入门内容了,望诸君共勉。


  • 26
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值