初学者必读的八个趣味机器学习项目 ‖ 教程+数据集


抽时间做项目是最好的一种投资方式,在项目中你会享受学习、保持积极性并能获得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。


因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。


以下将具体介绍这八个项目,每个项目都能在一个周末完成,如果你喜欢的话,可以对其进行相关的扩展。


本文目录


1. 机器学习的角斗士

2. 扮演“点球成金”

3. 预测股票价格

4. 教会神经网络阅读的笔迹

5. 调查安然事件

6. 从Scrath开始写机器学习算法

7. 挖掘社交情绪

8. 改善卫生保健



1.机器学习的角斗士


这个项目被称为“机器学习的角斗士”,但它不是新的。这是围绕机器学习建立实际直觉最快的一种方式。目标是将现成模型应用到不同的数据集。本项目主要有3个原因令人感叹:


首先,你会根据直觉为问题找到对应的模型。该模型是否对数据丢失具有鲁棒性、该模型适合处理种类别特征?这都可以通过挖掘教材找到答案,但如果通过实践的话能学习得更好。


其次,本项目将教会你快速设计初始模型的技能。在实际应用中,如果不简单尝试的话难以知道哪些模型表现最好。


最后,这个练习可以帮助你掌握建模的流程。例如:


  • 导入数据

  • 数据清洗

  • 将数据集拆成训练/测试或交叉验证集

  • 预处理

  • 变换

  • 特征工程


因为使用现成的模型,这导致你有更多的机会专注于学习上述的这些关键步骤。


通过以下教程可以练习回归、分类和聚类算法。


教程


  • Python:sklearn——sklearn数据包官方教程

    (http://suo.im/2soaN8)


  • Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程

    (http://suo.im/4qWf3S)


  • R:插入符号——在线研讨会

    (http://suo.im/28G7jk)


数据源


  • UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。

    (http://suo.im/2LAdKq)


  • Kaggle数据集——Kaggle社区上的100多个数据集。

    (https://www.kaggle.com/datasets)


  • Data.gov——由美国政府发布的开放数据集。

    (https://www.

  • 9
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值