完整走完一个机器学习项目（end-to-end machine learning project)中

最新推荐文章于 2024-05-26 09:53:40 发布

ZoeHwang_

最新推荐文章于 2024-05-26 09:53:40 发布

阅读量1.5k

点赞数 2

分类专栏：机器学习文章标签：机器学习数据挖掘深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZLan_3/article/details/85394132

版权

Hands on Machine Learning with Scikit-learn and TensorFlow 读书笔记

Chapter 2 End-to-End Machine Learning Project

在这一章，你将会走完一个完整的机器学习项目。主要步骤如下：

对所需解决的问题有一个总体的思路
获取数据
通过数据可视化来得到对数据潜在规律的一些思考
在训练模型之前先对数据进行预处理
选择一个合适的模型进行训练
调整并找到最合适的模型参数
长期监督并维护你的学习系统

上一篇写了1和2，这篇来写后面的。（怎么感觉这篇也写不完？？？哈哈哈算了先写着吧）

通过数据可视化来得到对数据潜在规律的一些思考：
上一篇文章我们已经对数据集有了大致的了解，第三步我们要做的是把测试集扔在一边不要管，然后来探索一下训练集的数据潜在逻辑，我们复制一份训练集数据以免破坏原数据：
```
housing = strat_train_set.copy()
```
我们观察到数据集中包含了一个地理信息（经纬度），让我们可视化来看看：

这样其实还是不好分辨他的分布规律，我们可以设置参数 alpha：

我这里的 alpha 设置的是0.2，原书是0.1，大家可以自己试试别的数值，越接近零，透明度越高；设置了 alpha 以后，分布规律就变得很显然了，颜色深的地方密度更大。
现在我们加入更多的属性来看，设置每个圆点半径表示某地区的人口，圆点颜色表示房价，用一个定义好的colormap（jet）来表示房价的高低：

这一轮探索让我们发现房价跟地理位置以及人口数量的关系。
接下来我们进一步探索属性之间的相关性，可以用 corr() 方法来简单的计算 Pearson 相关系数，然后查看每个属性与房价的相关性：

能看到中值收入（median_incom

最低0.47元/天解锁文章

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
完整走完一个机器学习项目（end-to-end machine learning project)中

Hands on Machine Learning with Scikit-learn and TensorFlow 读书笔记Chapter 2 End-to-End Machine Learning Project在这一章，你将会走完一个完整的机器学习项目。主要步骤如下：对所需解决的问题有一个总体的思路获取数据通过数据可视化来得到对数据潜在规律的一些思考在训练模型之前先对数据进行...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。