第二章端到端的机器学习项目——最全的房价预测案例

最新推荐文章于 2024-06-22 21:25:12 发布

看不见我呀

最新推荐文章于 2024-06-22 21:25:12 发布

阅读量968

点赞数 1

分类专栏： sklearn 机器学习实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaotihong/article/details/94054628

版权

机器学习实战同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

学会了使用自动目录，这个可以美美的了。

目录

1.1使用真实数据

1.2观察大局

1.3框架问题

1.4 选择性能指标

1.5检查假设

2.1创建工作区

2.2下载数据

2.3分析数据

2.3.1统计学的角度分析——head/info/value_counts/describe

2.3.2图形的角度分析——直方图对

2.4创建测试集——引入分层抽样

3.从数据集探测和可视化中获得洞见

3.1可视化地理位置信息

3.2寻找相关度

3.2.1统计的方法

3.2.3图示的方法

3.3试验不同属性的组合

1.前置知识

1.1使用真实数据

机器学习最好使用真实数据，而不仅仅是使用人工数据。可以选择开源数据集。

1.2观察大局

任务：使用加州人口的普查的数据建立起加州的房价模型。数据中包含很多指标：每个街区人口的数量，收入中位数等，

目的：学习一个模型，来预测房价中位数。

【首先应该拿出机器学习项目清单】

1.3框架问题

（1）了解建立模型的目的很重要，盈利模式是什么样的很重要。因为模型不是最终目的，这些问题将决定你怎么设定问题，选择什么算法，使用什么测量方式来衡量模型的性能。

了解到：本文建立模型的目的及盈利模式：此模型的输出将会跟其他许多信号，一起被传送到下一个机器学习系统，此输出将用来决策一个给定的区域是否值得投资。

（2）了解的第二个问题：当前的解决方案，如果有的话。

你可以将其当其当做参考，也可以获得解决问题的洞察。

回答：当前是一个专家团队在使用复杂的规则进行估算。误差率为15%。

（3）归类问题

有了标签，属于监督学习；

因为要对某个值进行预测，因此属于回归任务。

本系统中有多个变量（多个属性），因此属于多变量回归任务。

本系统没有一个连续的数据流持续更新，数量也不多，因此批量学习就可以胜任。

1.4 选择性能指标

回归问题常选择的指标为：均方根误差（rmse）

RMSE通常是回归任务的首选指标，但是当有很多离群值时，可以考虑平均绝对误差，（MAE）

1.5检查假设

列举和验证到目前为止（由你或其他人做出的）假设，是一个非常良好的习惯，这在初期可以检查出很严重的问题。

例如：当我们的机器学习模型输出价格给下游系统时，我们的假设：价格会被合理使用。

但是如果下游系统是将价格转化为类别（例如：廉价、中等或者昂贵），转而使用这些类别，而不是价格本身呢？

在这种情况下，并不需要完全准确的估计出价格，我们的系统只需要预测出类别就可以了。

因此，我们的任务，应该是分类任务，而不是回归任务。

【你肯定不愿意在回归系统上努力几个月后，才发现这个问题】

2.获取数据

2.1创建工作区

【强烈推荐创建一个隔离环境，这样可以在库版本不冲突的情况下处理不同的项目】

2.2下载数据

【你可以使用浏览器下载压缩包，运行tar xzf housig.csv,但是最好的选择是创建一个简单的函数来实现它。

——尤其是当数据定期发生变化时，这个函数尤其重要。（如果在多个机器上安装数据时，这个自动获取数据的函数也很好用。）

——你可以编写一个脚本，在需要获取数据时，直接运行。】

2.3分析数据

2.3.1统计学的角度分析——head/info/value_counts/describe

2.3.2图形的角度分析——直方图对

2.4创建测试集——引入分层抽样

3.从数据集探测和可视化中获得洞见

3.1可视化地理位置信息

3.2寻找相关度

3.2.1统计的方法

3.2.3图示的方法

3.3试验不同属性的组合

看不见我呀

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。