很久没法博客了,可能自己也变懒了,正好最近在看一本大神推荐的书,准备写写笔记,把自己不会的,解决了的记录下来。文中的中文全部来自作者蹩脚的翻译,还望理解
书名叫《Hands-On Machine Learning with Scikit-Learn & Tensorflow》,我用的是东南大学的影印版,封面大概是这个样子(图片来自京东)
第一章主要是讲了机器学习的基础知识,主要的几个分类(监督学习与无监督学习,基于实例和基于模型的学习,线上学习和批量学习等等)和一些机器学习过程中容易遇到的一些问题,包括过拟合、欠拟合、测试集和验证集的划分等等,比较基础,在此一笔带过
我们的正文从第二章开始吧。第二章用一个房价预测例子来描述了一个完整的机器学习项目过程
主要任务有以下:
- 获取数据
- 数据可视化,发现数据的内在关系
- 数据前期处理以便于机器学习算法
- 选择模型并训练
- 结果展示及更多
Step by step!
获取数据
关于获取数据,书中提到了几个开源的数据社区:
这些社区的数据全部来自于真实数据,对想要熟悉机器学习的人来说比较合适,可以拿来练手
在获取了数据集之后,我们需要解决两个问题:
- 我们的业务目标究竟是什么?
- 当前的解决方案是怎么样的?
第一个问题也许你该问问你的BOSS,或许我们的目标是给下游的系统提供输入,或者别的目的;第二个问题可以看看相似问题在现实中是怎么解决的,效率和损耗怎么样,给机器学习的效果提供一个参照(我们要超越的目标)
下面我们需要确定我们的模型表现的评价标准,主要有下面几种方式:
- RMSE(又叫L2范数、欧几里得范数):
1m∑i=1m(h(xi)−y<