Hands on Machine Learning with Scikit-learn and TensorFlow 读书笔记
Chapter 2 End-to-End Machine Learning Project
在这一章,你将会走完一个完整的机器学习项目。主要步骤如下:
- 对所需解决的问题有一个总体的思路
- 获取数据
- 通过数据可视化来得到对数据潜在规律的一些思考
- 在训练模型之前先对数据进行预处理
- 选择一个合适的模型进行训练
- 调整并找到最合适的模型参数
- 长期监督并维护你的学习系统
接下来我们将详细的走完这一整个项目:
-
对所需解决的问题有一个总体的思路:
本章节给的任务是一个房价预测问题,训练数据中包含了每个区的人口、中值收入以及该区的中值房价等。
我们首先要弄清楚这个任务的商业目的是什么,公司想要从这个模型中得到什么;这个问题很重要,因为他决定了你怎么设计你的流程,怎样选择算法,怎样选择性能度量指标,以及要花多少时间力气来调整它。
其次我们要知道该问题现有的解决方案以及这些解决方案的实行效果,这可以作为一个性能度量参考。
有了以上信息以后,我们要开始考虑,这是个问题是监督、非监督、还是强化学习?他是一个分类任务还是回归任务?我们要用批量学习还是在线学习?
这个任务很显然是一个监督学习任务,因为我们的训练数据是有标签的(每个实例都是对应的中值房价)