抽时间做项目是最好的一种投资方式,在项目中你会享受学习、保持积极性并能获得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。
因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。
以下将具体介绍这八个项目,每个项目都能在一个周末完成,如果你喜欢的话,可以对其进行相关的扩展。
本文目录
1. 机器学习的角斗士
2. 扮演“点球成金”
3. 预测股票价格
4. 教会神经网络阅读的笔迹
5. 调查安然事件
6. 从Scrath开始写机器学习算法
7. 挖掘社交情绪
8. 改善卫生保健
1.机器学习的角斗士
这个项目被称为“机器学习的角斗士”,但它不是新的。这是围绕机器学习建立实际直觉最快的一种方式。目标是将现成模型应用到不同的数据集。本项目主要有3个原因令人感叹:
首先,你会根据直觉为问题找到对应的模型。该模型是否对数据丢失具有鲁棒性、该模型适合处理种类别特征?这都可以通过挖掘教材找到答案,但如果通过实践的话能学习得更好。
其次,本项目将教会你快速设计初始模型的技能。在实际应用中,如果不简单尝试的话难以知道哪些模型表现最好。
最后,这个练习可以帮助你掌握建模的流程。例如:
-
导入数据
-
数据清洗
-
将数据集拆成训练/测试或交叉验证集
-
预处理
-
变换
-
特征工程
因为使用现成的模型,这导致你有更多的机会专注于学习上述的这些关键步骤。
通过以下教程可以练习回归、分类和聚类算法。
教程
-
Python:sklearn——sklearn数据包官方教程
(http://suo.im/2soaN8)
-
Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程
(http://suo.im/4qWf3S)
-
R:插入符号——在线研讨会
(http://suo.im/28G7jk)
数据源
-
UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。
(http://suo.im/2LAdKq)
-
Kaggle数据集——Kaggle社区上的100多个数据集。
(https://www.kaggle.com/datasets)
-
Data.gov——由美国政府发布的开放数据集。
(https://www.