波士顿房价预测python决策树_机器学习第二练---波士顿房价预测

weixin_39654903

于 2020-12-15 11:13:44 发布

阅读量461

点赞数

文章标签：波士顿房价预测python决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39654903/article/details/111426042

版权

本文通过一个机器学习项目——波士顿房价预测，介绍数据分析的基本步骤。首先，对原始数据进行异常值和无关特征的清理，使用Numpy和Pandas进行数据处理。接着，利用决定系数（R^2）作为模型评估标准，探讨回归分析。接着将数据划分为训练集和测试集，采用sklearn的train_test_split方法，并讨论random_state的重要性。最后，通过学习曲线和验证曲线分析决策树模型的过拟合与欠拟合，确定最佳的max_depth值（3）作为最优参数。

摘要由CSDN通过智能技术生成

环境仍然是Jupyter Notebook, py2.7，至今没发现拿python做数据分析，有比这个笔记本更好用的工具。

此篇文章呢，主要是通过一个小的机器学习的项目，来说明一下，相关的大概步骤和所涉及到各种概念。

原始数据：有如下特点

波士顿房屋这些数据于1978年开始统计，共506个数据点，涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理：

1，异常的点的清除

2，无关特征的清除

数据操作这块主要通过Numpy和Pandas

数据展示这块主要是matplotlib和后台自定义的包visuals(仍然是基于matplotlib)

第一步操作，就是在读入housing.csv文件后，统计一下价格的最小值、最大值、均值、中值和标准差，后期做数据分析的时候，其实用到这几个统计值。

这里实现呢，本身python是自带统计函数的，但是，这里使用numpy相关的函数处理，理论上速度应该更快一些。

可以这样认为，numpy包是基于python做的优化，而pandas是基于numpy做的优化。

其他数据特征含义，可参考下图：

第二步操作，开始建模准备

选用R^2, 也就是决定系数作为模型的评测函数，一看这意思，就是要用回归分析来进行预测啦，因为决定系数，就是回归分析中最经常用的评价指标，

比如，回归系数是否显著，调整后

最低0.47元/天解锁文章

weixin_39654903

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。