波士顿房价预测python决策树_机器学习第二练---波士顿房价预测

本文通过一个机器学习项目——波士顿房价预测,介绍数据分析的基本步骤。首先,对原始数据进行异常值和无关特征的清理,使用Numpy和Pandas进行数据处理。接着,利用决定系数(R^2)作为模型评估标准,探讨回归分析。接着将数据划分为训练集和测试集,采用sklearn的train_test_split方法,并讨论random_state的重要性。最后,通过学习曲线和验证曲线分析决策树模型的过拟合与欠拟合,确定最佳的max_depth值(3)作为最优参数。
摘要由CSDN通过智能技术生成

环境仍然是Jupyter Notebook, py2.7,至今没发现拿python做数据分析,有比这个笔记本更好用的工具。

此篇文章呢,主要是通过一个小的机器学习的项目,来说明一下,相关的大概步骤和所涉及到各种概念。

原始数据:有如下特点

波士顿房屋这些数据于1978年开始统计,共506个数据点,涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理:

1,异常的点的清除

2,无关特征的清除

数据操作这块主要通过Numpy和Pandas

数据展示这块主要是matplotlib和后台自定义的包visuals(仍然是基于matplotlib)

第一步操作,就是在读入housing.csv文件后,统计一下价格的最小值、最大值、均值、中值和标准差,后期做数据分析的时候,其实用到这几个统计值。

这里实现呢,本身python是自带统计函数的,但是,这里使用numpy相关的函数处理,理论上速度应该更快一些。

可以这样认为,numpy包是基于python做的优化,而pandas是基于numpy做的优化。

其他数据特征含义,可参考下图:

第二步操作,开始建模准备

选用R^2, 也就是决定系数作为模型的评测函数,一看这意思,就是要用回归分析来进行预测啦,因为决定系数,就是回归分析中最经常用的评价指标,

比如,回归系数是否显著,调整后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值