机器学习项目-预测波士顿房价-整体流程

最新推荐文章于 2024-08-21 14:19:27 发布

1990Scarlett

最新推荐文章于 2024-08-21 14:19:27 发布

阅读量4.8k

点赞数 5

分类专栏：机器学习项目

本文链接：https://blog.csdn.net/chuan403082010/article/details/86029492

版权

本文介绍了使用机器学习预测波士顿房价的项目，包括数据导入、分析、训练集和测试集划分。通过基础统计运算，分析了影响房价的特征，如房间数量、低收入阶层比例和学生教师比例。通过数据分割，进行了模型训练和测试，讨论了模型的表现评估标准。最后，探讨了模型的复杂度、偏差与方差之间的平衡，选择了最佳的模型参数，进行了交叉验证和网格搜索以优化模型。项目展示了如何使用决策树进行预测，并对预测结果进行了分析。

摘要由CSDN通过智能技术生成

项目 1: 预测波士顿房价¶

第一步. 导入数据

在这个项目中，你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型，并对模型的性能和预测能力进行测试。通过该数据训练后的好的模型可以被用来对房屋做特定预测---尤其是对房屋的价值。对于房地产经纪等人的日常工作来说，这样的预测模型被证明非常有价值。

此项目的数据集来自UCI机器学习知识库(数据集已下线)。波士顿房屋这些数据于1978年开始统计，共506个数据点，涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理：

有16个'MEDV' 值为50.0的数据点被移除。这很可能是由于这些数据点包含遗失或看不到的值。
有1个数据点的 'RM' 值为8.78. 这是一个异常值，已经被移除。
对于本项目，房屋的'RM'， 'LSTAT'，'PTRATIO'以及'MEDV'特征是必要的，其余不相关特征已经被移除。
'MEDV'特征的值已经过必要的数学转换，可以反映35年来市场的通货膨胀效应。

运行下面区域的代码以载入波士顿房屋数据集，以及一些此项目所需的Python库。如果成功返回数据集的大小，表示数据集已载入成功。

# 载入此项目所需要的库
import numpy as np
import pandas as pd
import visuals as vs # Supplementary code

# 检查你的Python版本
from sys import version_info
if version_info.major != 2 and version_info.minor != 7:
    raise Exception('请使用Python 2.7来完成此项目')
    
# 让结果在notebook中显示
%matplotlib inline

# 载入波士顿房屋的数据集
data = pd.read_csv('housing.csv')
prices = data['MEDV']
features = data.drop('MEDV', axis = 1)
    
# 完成
print "Boston housing dataset has {} data points with {} variables each.".format(*data.shape)

第二步. 分析数据

在项目的第一个部分，你会对波士顿房地产数据进行初步的观察并给出你的分析。通过对数据的探索来熟悉数据可以让你更好地理解和解释你的结果。

由于这个项目的最终目标是建立一个预测房屋价值的模型，我们需要将数据集分为特征(features)和目标变量(target variable)。

特征 'RM'， 'LSTAT'，和 'PTRATIO'，给我们提供了每个数据点的数量相关的信息。
目标变量：'MEDV'，是我们希望预测的变量。

他们分别被存在features和prices两个变量名中。

编程练习 1：基础统计运算

你的第一个编程练习是计算有关波士顿房价的描述统计数据。我们已为你导入了numpy，你需要使用这个库来执行必要的计算。这些统计数据对于分析模型的预测结果非常重要的。在下面的代码中，你要做的是：

计算prices中的'MEDV'的最小值、最大值、均值、中值和标准差；

将运算结果储存在相应的变量中。

#TODO 1

#目标：计算价值的最小值
minimum_price = np.min(prices)

#目标：计算价值的最大值
maximum_price = np.max(prices)

#目标：计算价值的平均值
mean_price = np.mean(prices)

#目标：计算价值的中值
median_price = np.median(prices)

#目标：计算价值的标准差
std_price = np.std(prices)

#目标：输出计算的结果
print "Statistics for Boston housing dataset:\n"
print "Minimum price: ${:,.2f}".format(minimum_price)
print "Maximum price: ${:,.2f}".format(maximum_price)
print "Mean price: ${:,.2f}".format(mean_price)
print "Median price ${:,.2f}".format(median_price)
print "Standard deviation of prices: ${:,.2f}".format(std_price)

问题 1 - 特征观察

如前文所述，本项目中我们关注的是其中三个值:'RM'、'LSTAT' 和'PTRATIO'，对每一个数据点:

'RM' 是该地区中每个房屋的平均房间数量；
'LSTAT' 是指该地区有多少百分比的业主属于是低收入阶层（有工作但收入微薄）；
'PTRATIO' 是该地区的中学和小学里，学生和老师的数目比（学生/老师）。
凭直觉，上述三个特征中对每一个来说，你认为增大该特征的数值，'MEDV'的值会是增大还是减小呢？每一个答案都需要你给出理由。

提示：你预期一个'RM' 值是6的房屋跟'RM' 值是7的房屋相比，价值更高还是更低呢？

问题 1 - 回答：

RM 增大, MEDV会相对增大: RM增大,单个房屋里的房间数增大, 侧面也可以反映出或许是有更多的人入住, 有更多的需求,MEDV价格也会相对提高 LSTAT增大,MEDV会相对降低: LSTAT代表低收入阶层的比例, 低收入阶层比例增大, 证明此地区消费水平变低,或者此地区产业不景气, MEDC的价格也会随之降低 PREARIO增大,MEDV会降低: 老师和学生的比例越来越大,说明有更多的学生,更少的老师, 更多的学生是否可以理解成此地区居住人口多, 老师变少,可以理解为,此地区待遇不好,或者地区发展并不完善, 社区匹配越不健全,房价也就越低