项目1：波士顿房价预测

最新推荐文章于 2025-02-02 19:38:33 发布

原创

最新推荐文章于 2025-02-02 19:38:33 发布 · 1.4w 阅读

53 ·

CC 4.0 BY-SA版权

文章标签：

#Udacity_project

本文档记录了一次针对波士顿房价的预测项目，包括数据导入、描述性统计分析、特征观察、学习曲线、模型复杂度分析、最优参数选择和预测。通过探索数据发现，房间数、低收入比例和学生教师比例等因素对房价有影响。项目使用了pandas库进行统计分析，并利用matplotlib进行数据可视化。通过学习曲线和复杂度曲线分析，揭示了模型的偏差与方差之间的平衡。最终，通过网格搜索和交叉验证找到了最佳模型，最优深度约为3-4，模型的决定系数R2较高，显示出较好的预测性能。

第一步. 导入数据

在这个项目中，你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型，并对模型的性能和预测能力进行测试。通过该数据训练后的好的模型可以被用来对房屋做特定预测---尤其是对房屋的价值。对于房地产经纪等人的日常工作来说，这样的预测模型被证明非常有价值。

此项目的数据集来自UCI机器学习知识库(数据集已下线)。波士顿房屋这些数据于1978年开始统计，共506个数据点，涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理：

有16个'MEDV' 值为50.0的数据点被移除。这很可能是由于这些数据点包含遗失或看不到的值。
有1个数据点的 'RM' 值为8.78. 这是一个异常值，已经被移除。
对于本项目，房屋的'RM'， 'LSTAT'，'PTRATIO'以及'MEDV'特征是必要的，其余不相关特征已经被移除。
'MEDV'特征的值已经过必要的数学转换，可以反映35年来市场的通货膨胀效应。

运行下面区域的代码以载入波士顿房屋数据集，以及一些此项目所需的Python库。如果成功返回数据集的大小，表示数据集已载入成功。

    In [1]: 
  

# 载入此项目所需要的库
import numpy as np
import pandas as pd
import sys
import sklearn
import visuals as vs # Supplementary code


# 检查你的Python版本
from sys import version_info
if version_info.major != 2 and version_info.minor != 7:
    raise Exception('请使用Python 2.7来完成此项目')

# 让结果在notebook中显示
%matplotlib inline

    In [2]: 
  

# 载入波士顿房屋的数据集
data = pd.read_csv('housing.csv')
prices = data['MEDV']
features = data.drop('MEDV', axis = 1)
    
# 完成
print "Boston housing dataset has {} data points with {} variables each.".format(*data.shape)

Boston housing dataset has 489 data points with 4 variables each.

第二步. 分析数据

在项目的第一个部分，你会对波士顿房地产数据进行初步的观察并给出你的分析。通过对数据的探索来熟悉数据可以让你更好地理解和解释你的结果。

由于这个项目的最终目标是建立一个预测房屋价值的模型，我们需要将数据集分为特征(features)和目标变量(target variable)。

特征 'RM'， 'LSTAT'，和 'PTRATIO'，给我们提供了每个数据点的数量相关的信息。
目标变量：'MEDV'，是我们希望预测的变量。

他们分别被存在features和prices两个变量名中。

    In [3]: 
  

#找到并查看要用的数据
in_file = 'housing.csv'
full_data = pd.read_csv(in_file)
display (full_data.head())

	RM	LSTAT	PTRATIO	MEDV
0	6.575	4.98	15.3	504000.0
1	6.421	9.14	17.8	453600.0
2	7.185	4.03	17.8	728700.0
3	6.998	2.94	18.7	701400.0
4	7.147	5.33	18.7	760200.0

    In [4]: 
  

#将要用的数据提取出来
outcomes_MEDV = full_data['MEDV']
display (outcomes_MEDV.head())

0    504000.0
1    453600.0
2    728700.0
3    701400.0
4    760200.0
Name: MEDV, dtype: float64

编程练习 1：基础统计运算

你的第一个编程练习是计算有关波士顿房价的描述统计数据。我们已为你导入了numpy，你需要使用这个库来执行必要的计算。这些统计数据对于分析模型的预测结果非常重要的。在下面的代码中，你要做的是：

计算prices中的'MEDV'的最小值、最大值、均值、中值和标准差；
将运算结果储存在相应的变量中。

个人批注：pandas为我们提供了非常多的的描述性统计分析的指标函数

np.random.seed(1234)
d1 = pd.Series(2*np.random.normal(size = 100)+3)
d2 = np.random.f(2,4,size = 100)
d3 = np.random.randint(1,100,size = 100)
d1.count() #非空元素计算
d1.min() #最小值
d1.max() #最大值
d1.idxmin() #最小值的位置，类似于R中的which.min函数
d1.idxmax() #最大值的位置，类似于R中的which.max函数
d1.quantile(0.1) #10%分位数
d1.sum() #求和
d1.mean() #均值
d1.median() #中位数
d1.mode() #众数
d1.var() #方差
d1.std() #标准差
d1.mad() #平均绝对偏差
d1.skew() #偏度
d1.kurt() #峰度
d1.describe() #一次性输出多个描述性统计指标

    In [5]: 
  

#TODO 1

#目标：计算价值的最小值

minimum_price = outcomes_MEDV.min()

#目标：计算价值的最大值
maximum_price = outcomes_MEDV.max()

#目标：计算价值的平均值
mean_price = outcomes_MEDV.mean()

#目标：计算价值的中值
median_price = outcomes_MEDV.median()

#目标：计算价值的标准差
std_price = outcomes_MEDV.std()

#目标：输出计算的结果
print "Statistics for Boston housing dataset:\n"
print "Minimum price: ${:,.2f}".format(minimum_price)
print "Maximum price: ${:,.2f}".format(maximum_price)
print "Mean price: ${:,.2f}".format(mean_price)
print "Median price ${:,.2f}".format(median_price)
print "Standard deviation of prices: ${:,.2f}".format(std_price)

Statistics for Boston housing dataset:

Minimum price: $105,000.00
Maximum price: $1,024,800.00
Mean price: $454,342.94
Median price $438,900.00
Standard deviation of prices: $165,340.28

最低0.47元/天解锁文章

项目1： 波士顿房价预测

第一步. 导入数据

第二步. 分析数据

编程练习 1：基础统计运算

个人批注：pandas为我们提供了非常多的的描述性统计分析的指标函数

项目1：波士顿房价预测