趣味机器学习入门小项目(附教程与数据)

微信公众号

关键字全网搜索最新排名

【机器学习算法】:排名第一

【机器学习】:排名第一

【Python】:排名第三

【算法】:排名第四

没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。

这个项目的目标是将现成模型应用到不同的数据集。首先,你会根据直觉为问题找到对应的模型,实践检验该模型是否对数据丢失具有鲁棒性、是否适合处理哪种类别特征;其次,本项目将教会你快速设计初始模型的技能,在实际应用中,我们一般会先找到一个简单模型进行快速实现以确定一个baseline,逐步提升模型性能,而不是一蹴而就的完成;最后,这个练习可以帮助你掌握建模的流程。下面我里除了一个机器学习问题处理的通用性步骤例如:

  1. 导入数据

  2. 数据清洗

  3. 将数据集拆成训练/测试或交叉验证集

  4. 预处理

  5. 变换

  6. 特征工程

因为使用现成的模型,这促使你有更多的机会专注于学习上述的这些关键步骤,通过以下教程可以练习回归、分类和聚类算法。


首先介绍一下该项目中所使用到的数据源:

  1. UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。

    http://archive.ics.uci.edu/ml/

  2. Kaggle数据集——Kaggle社区上的100多个数据集。

    https://www.kaggle.com/datasets

  3. Data.gov——由美国政府发布的开放数据集。

    https://www.data.gov/

其次是教程,项目中的模型使用Python的第三方库Scikit-learn进行快速实现,需要了解scikit-learn的安装以及使用方法(参考官方手册),具体如下:

  1. Python:sklearn——sklearn数据包官方教程 

    http://scikit-learn.org/stable/tutorial/

  2. 中文教程手册:

    http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030179

  3. Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程

    http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn


招募 志愿者

广告、商业合作

请发邮件:357062955@qq.com

喜欢,别忘关注~

帮助你在AI领域更好的发展,期待与你相遇!

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
选题背景 Titanic生存概率预测是Kaggle平台上的经典竞赛项目,泰坦尼克号成员存活的数据集非常适合新手开始作为机器学习项目和Kaggle竞赛的练手。我们将在该项目中探索具备何种特征的人在此次海滩中幸存的几率更高,并通过改建机器学习模型和深度学习模型来预测乘客的生存率。Titanic项目的描述如下所示: 泰坦尼克号的沉没是历史上最声明远扬的航海事件 1912年4月15日,在她的处女航中,被广泛认为的“沉没” RMS泰坦尼克号与冰山相撞后沉没。 不幸的是,船上没有足够的救生艇供所有人使用,导致2224名乘客和机组人员中的1502人死亡 虽然幸存有一些运气,但似乎有些人比其他人更有可能生存 在这一挑战中,我们要求您建立一个预测模型来回答以下问题:“什么样的人更有可能生存?” 您可以使用乘客数据(即姓名,年龄,性别,社会经济舱等)来进行预测 开发环境 操作系统:Macos Python版本:3.7.4 Anaconda版本:4.9.2 tensorflow版本:2.1.0 keras版本:1.1.0 1 数据源集数据处理 1.1 数据数据集来自Kaggle网站提供的数据集,Kaggle提供的乘员数据分为两个部分: 训练集(train.csv) 测试集(test.csv) 训练集将用于构建我们的机器学习/深度学习模型。并且在训练集中对于每位乘客我们会有表示该乘客是否存活的label,也就是survival字段。在训练集中会给出每一位乘客的特征,我们需要从这些乘客的特征当中学得一些知识,或者可以使用特征工程来创建新的特征来帮助模型的构建 测试集数据将用来评判我们模型的表现。因此对于测试集中的每一位乘客没有代表该乘客是否存活的label,我们的模型需要根据每一位乘客的特征值来输出相应的label,真实的label将由kaggle网站保留

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值