波士顿房价预测

机器学习工程师纳米学位

模型评价与验证

项目 1: 预测波士顿房价

欢迎来到机器学习工程师纳米学位的第一个项目!在此文件中,有些示例代码已经提供给你,但你还需要实现更多的功能来让项目成功运行。除非有明确要求,你无须修改任何已给出的代码。以‘练习’开始的标题表示接下来的内容中有需要你必须实现的功能。每一部分都会有详细的指导,需要实现的部分也会在注释中以‘TODO’标出。请仔细阅读所有的提示!

除了实现代码外,你还必须回答一些与项目和实现有关的问题。每一个需要你回答的问题都会以‘问题 X’为标题。请仔细阅读每个问题,并且在问题后的‘回答’文字框中写出完整的答案。你的项目将会根据你对问题的回答和撰写代码所实现的功能来进行评分。

提示:**Code 和 Markdown 区域可通过 **Shift + Enter 快捷键运行。此外,Markdown可以通过双击进入编辑模式。

开始

在这个项目中,你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型,并对模型的性能和预测能力进行测试。通过该数据训练后的好的模型可以被用来对房屋做特定预测—尤其是对房屋的价值。对于房地产经纪等人的日常工作来说,这样的预测模型被证明非常有价值。

此项目的数据集来自UCI机器学习知识库。波士顿房屋这些数据于1978年开始统计,共506个数据点,涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理:
- 有16个'MEDV' 值为50.0的数据点被移除。 这很可能是由于这些数据点包含遗失看不到的值
- 有1个数据点的 'RM' 值为8.78. 这是一个异常值,已经被移除。
- 对于本项目,房屋的'RM''LSTAT''PTRATIO'以及'MEDV'特征是必要的,其余不相关特征已经被移除。
- 'MEDV'特征的值已经过必要的数学转换,可以反映35年来市场的通货膨胀效应。

运行下面区域的代码以载入波士顿房屋数据集,以及一些此项目所需的Python库。如果成功返回数据集的大小,表示数据集已载入成功。

# Import libraries necessary for this project
# 载入此项目所需要的库
import numpy as np
import pandas as pd
import visuals as vs # Supplementary code
from sklearn.model_selection import ShuffleSplit

# Pretty display for notebooks
# 让结果在notebook中显示
%matplotlib inline

# Load the Boston housing dataset
# 载入波士顿房屋的数据集
data = pd.read_csv('housing.csv')
prices = data['MEDV']
features = data.drop('MEDV', axis = 1)

# Success
# 完成
print "Boston housing dataset has {} data points with {} variables each.".format(*data.shape)
Boston housing dataset has 489 data points with 4 variables each.

分析数据

在项目的第一个部分,你会对波士顿房地产数据进行初步的观察并给出你的分析。通过对数据的探索来熟悉数据可以让你更好地理解和解释你的结果。

由于这个项目的最终目标是建立一个预测房屋价值的模型,我们需要将数据集分为特征(features)目标变量(target variable)特征 'RM''LSTAT',和 'PTRATIO',给我们提供了每个数据点的数量相关的信息。目标变量'MEDV',是我们希望预测的变量。他们分别被存在featuresprices两个变量名中。

练习:基础统计运算

你的第一个编程练习是计算有关波士顿房价的描述统计数据。我们已为你导入了numpy,你需要使用这个库来执行必要的计算。这些统计数据对于分析模型的预测结果非常重要的。
在下面的代码中,你要做的是:
- 计算prices中的'MEDV'的最小值、最大值、均值、中值和标准差;
- 将运算结果储存在相应的变量中。

# TODO: Minimum price of the data
#目标:计算价值的最小值
minimum_price = min(prices)

# TODO: Maximum price of the data
#目标:计算价值的最大值
maximum_price = max(prices)

# TODO: Mean price of the data
#目标:计算价值的平均值
mean_price = np.mean(prices)

# TODO: Median price of the data
#目标:计算价值的中值
median_price = np.median(prices)

# TODO: Standard deviation of prices of the data
#目标:计算价值的标准差
std_price = np.std(prices)

# Show the calculated statistics
#目标:输出计算的结果
print "Statistics for Boston housing dataset:\n"
print "Minimum price: ${:,.2f}".format(minimum_price)
print "Maximum price: ${:,.2f}".format(maximum_price)
print "Mean price: ${:,.2f}".format(mean_price)
print "Median price ${:,.2f}".format(median_price)
print "Standard deviation of prices: ${:,.2f}".format(std_price)
Statistics for Boston housing dataset:

Minimum price: $105,000.00
Maximum price: $1,024,800.00
Mean price: $454,342.94
Median price $438,900.00
Standard deviation of prices: $165,171.13

问题1 - 特征观察

如前文所述,本项目中我们关注的是其中三个值:'RM''LSTAT''PTRATIO',对每一个数据点:
- 'RM' 是该地区中每个房屋的平均房间数量;
- 'LSTAT' 是指该地区有多少百分比的房东属于是低收入阶层(有工作但收入微薄);
- 'PTRATIO' 是该地区的中学和小学里,学生和老师的数目比(学生/老师)。

凭直觉,上述三个特征中对每一个来说,你认为增大该特征的数值,'MEDV'的值会是增大还是减小呢?每一个答案都需要你给出理由。

提示:你预期一个'RM' 值是6的房屋跟'RM' 值是7的房屋相比,价值更高还是更低呢?

import matplotlib
a = data['RM']
b = data['MEDV']
matplotlib.pyplot.scatter(a,b)
matplotlib.pyplot.show()
c = data['LSTAT']
matplotlib.pyplot.scatter(c,b)
matplotlib.pyplot.show()
d = data['PTRATIO']
matplotlib.pyplot.scatter(d,b)
matplotlib.pyplot.show()

png

png

png

回答: 结合散点图可以直观的看到:
当’RM’升高时’MEDV’会增大,原因是平均房间数量增加则必然带来房屋成本的上升,进而会使房价在整体上上涨。所以当我预期一个‘RM’值是6的房屋时,我会认为它的价值和‘RM’值为7的房屋相比更低。

当‘LSTAT’升高时‘MEDV’会减小,原因可能是收入微薄的房东无力购买新的房产来抬高房价促使当地房地产繁荣,所以在收入微薄的房东聚集的地区房价并不会太高。

我认为当‘PTRATIO’升高时,‘MEDV’不会发生明显的变化。学区房的房价应高于该地区中位数水平并低于高端房屋的价格。当学生/老师的比提高时,势必增加学区房的价格,但是并不会对中位数造成明显影响。

建模

在项目的第二部分中,你需要了解必要的工具和技巧来让你的模型进行预测。用这些工具和技巧对每一个模型的表现做精确的衡量可以极大地增强你预测的信心。

练习:定义衡量标准

如果不能对模型的训练和测试的表现进行量化地评估,我们就很难衡量模型的好坏。通常我们会定义一些衡量标准,这些标准可以通过对某些误差或者拟合程度的计算来得到。在这个项目中,你将通过运算决定系数 R2 来量化模型的表现。模型的决定系数是回归分析中十分常用的统计信息,经常被当作衡量模型预测能力好坏的标准。

R2的数值范围从0至1,表示目标变量的预测值和实际值之间的相关程度平方的百分比。一个模型的R2 值为0还不如直接用平均值来预测效果好;而一个R2 值为1的模型则可以对目标变量进行完美的预测。从0至1之间的数值,则表示该模型中目标变量中有百分之多少能够用特征来解释。模型也可能出现负值的R2,这种情况下模型所做预测有时会比直接计算目标变量的平均值差很多。

在下方代码的 performance_metric 函数中,你要实现:
- 使用 sklearn.metrics 中的 r2_score 来计算 y_truey_predict的R2值,作为对其表现的评判。
- 将他们的表现评分储存到score变量中。

# TODO: Import 'r2_score'
import sklearn as skl
def performance_metric(y_true, y_predict):
    """ Calculates and returns the performance score between 
        true and predicted values based on the metric chosen. """

    # TODO: Calculate the performance score between 'y_true' and 'y_predict'
    score = skl.metrics.r2_score(y_true,y_predict,sample_weight=None,multioutput=None)

    # Return the score
    return score

问题2 - 拟合程度

假设一个数据集有五个数据且一个模型做出下列目标变量的预测:

真实数值预测数值
3.02.5
-0.50.0
2.02.1
7.07.8
4.25.3

你会觉得这个模型已成功地描述了目标变量的变化吗?如果成功,请解释为什么,如果没有,也请给出原因。

运行下方的代码,使用performance_metric函数来计算模型的决定系数。

# Calculate the performance of this model
score = performance_metric([3, -0.5, 2, 7, 4.2], [2.5, 0.0, 2.1, 7.8, 5.3])
print "Model has a coefficient of determination, R^2, of {:.3f}.".format(score)
Model has a coefficient of determination, R^2, of 0.923.

**回答:**Model has a coefficient of determination, R^2, of 0.923.

由performance_metric计算得知,目标变量的平方和中有92.3%的平方和受到自变量的影响。所以我认为此模型成功地描述了目标变量的变化。

练习: 数据分割与重排

接下来,你需要把波士顿房屋数据集分成训练和测试两个子集。通常在这个过程中,数据也会被重新排序,以消除数据集中由于排序而产生的偏差。
在下面的代码中,你需要:
- 使用 sklearn.model_selection 中的 train_test_split, 将featuresprices的数据都分成用于训练的数据子集和用于测试的数据子集。
- 分割比例为:80%的数据用于训练,20%用于测试;
- 选定一个数值以设定 train_test_split 中的 random_state ,这会确保结果的一致性;
- 最终分离出的子集为X_train,X_test,y_train,和y_test

# TODO: Import 'train_test_split'
import numpy as np
from sklearn.model_selection import train_test_split
# TODO: Shuffle and split the data into training and testing subsets
X_train, X_test, y_train, y_test = train_test_split(features, prices,test_size = 0.20,random_state=0)

# Success
print "Training and testing split was successful."
Training and testing split was successful.

问题 3- 训练及测试

将数据集按一定比例分为训练用的数据集和测试用的数据集对学习算法有什么好处?

提示: 如果没有数据来对模型进行测试,会出现什么问题?

答案: 将数据分成两部分可以让我们作出模型后用测试集进行验证,评估模型对新数据的匹配程度,比如是否存在欠拟合和过拟合问题等。如果没有测试集则我们对模型的好坏无法作出准确的评估。


分析模型的表现

在项目的第三部分,我们来看一下几个模型针对不同的数据集在学习和测试上的表现。另外,你需要专注于一个特定的算法,用全部训练集训练时,提高它的'max_depth' 参数,观察这一参数的变化如何影响模型的表现。把你模型的表现画出来对于分析过程十分有益。可视化可以让我们看到一些单看结果看不到的行为。

学习曲线

下方区域内的代码会输出四幅图像,它们是一个决策树模型在不同最大深度下的表现。每一条曲线都直观的显示了随着训练数据量的增加,模型学习曲线的训练评分和测试评分的变化。注意,曲线的阴影区域代表的是该曲线的不确定性(用标准差衡量)。这个模型的训练和测试部分都使用决定系数R2来评分。

运行下方区域中的代码,并利用输出的图形回答下面的问题。

# Produce learning curves for varying training set sizes and maximum depths
vs.ModelLearning(features, prices)

png

问题 4 - 学习数据

选择上述图像中的其中一个,并给出其最大深度。随着训练数据量的增加,训练曲线的评分有怎样的变化?测试曲线呢?如果有更多的训练数据,是否能有效提升模型的表现呢?
提示:学习曲线的评分是否最终会收敛到特定的值?

答案: 拿max_depth = 1的图像来说,其最大深度为1。随着训练数据量的增加,训练曲线的评分逐渐下降但最终会趋于稳定。对于测试曲线的评分随着测试曲线的增加逐步提高,最终也趋于稳定。如果给予足够多的数据模型的表现不会提升太多,最重点的还是与最大深度有关,随着最大深度的提高,训练曲线评分和测试曲线评分都得到了提高。且从图中来看,最大深度为3时两条曲线最终收敛到的评分都很高。但是对于最大深度为10的图像,可以发现由于深度过深发生了过拟合,即训练集的得分很高达到了90%以上,但对于测试集得分很低。

复杂度曲线

下列代码内的区域会输出一幅图像,它展示了一个已经经过训练和验证的决策树模型在不同最大深度条件下的表现。这个图形将包含两条曲线,一个是训练的变化,一个是测试的变化。跟学习曲线相似,阴影区域代表该曲线的不确定性,模型训练和测试部分的评分都用的 performance_metric 函数。

运行下方区域中的代码,并利用输出的图形并回答下面的两个问题。

vs.ModelComplexity(X_train, y_train)

png

问题 5- 偏差与方差之间的权衡取舍

当模型以最大深度 1训练时,模型的预测是出现很大的偏差还是出现了很大的方差?当模型以最大深度10训练时,情形又如何呢?图形中的哪些特征能够支持你的结论?

提示: 你如何得知模型是否出现了偏差很大或者方差很大的问题?

答案: 当最大深度为1训练时,模型的预测是出现了很大的偏差,因为模型不够复杂不足以捕捉基本关系,其score不足0.6,得分太低正是模型复杂度太低所致;当模型以最大深度10训练时,出现了很大的方差,即出现了过拟合现象,这是因为模型过于复杂,对于训练集而言可以获得很好的匹配,但是无法将此模型泛化到更多数据,测试集得分太低,解决此问题的方法一是增大数据量二是降低模型复杂度。

问题 6- 最优模型的猜测

你认为最大深度是多少的模型能够最好地对未见过的数据进行预测?你得出这个答案的依据是什么?

答案: 我认为最大深度为4的模型能够很好的对未见过的数据进行很好的预测。从图中可以看到,当最大深度超过4时,虽然训练集的得分逐步提高但是测试集的得分开始下降。


评价模型表现

在这个项目的最后,你将自己建立模型,并使用最优化的fit_model函数,基于客户房子的特征来预测该房屋的价值。

什么是网格搜索法?如何用它来优化学习算法?

回答: 网格搜索法是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。
即,将各个参数可能的取值进行排列组合,列出所有可能的组合结果生成“网格”。然后将各组合用于SVM训练,并使用交叉验证对表现进行评估。在拟合函数尝试了所有的参数组合后,返回一个合适的分类器,自动调整至最佳参数组合,可以通过clf.best_params_获得参数值。

问题 8- 交叉验证

什么是K折交叉验证法(k-fold cross-validation)?优化模型时,使用这种方法对网格搜索有什么好处?网格搜索是如何结合交叉验证来完成对最佳参数组合的选择的?

提示: 跟为何需要一组测试集的原因差不多,网格搜索时如果不使用交叉验证会有什么问题?GridSearchCV中的'cv_results'属性能告诉我们什么?

**答案: **k折交叉验证法即将数据集分成k个子集,每个子集均做一次测试集,其余的作为训练集。如此交叉验证重复k次,每次选择一个子集作为测试集,并将k次的平均交叉验证识别率作为结果。
这样做的优点在于,所有的样本都被作为了训练集和测试集,每个样本都被验证了一次。
网格搜索算法用于系统地遍历多种参数的组合,通过交叉验证来确定最佳效果参数。如果网格搜索时不使用交叉验证则可能使得模型泛化能力无法达到最优。
‘cv_results_’能够输出一个dict,其中包括相关参数的名称以及对应的值。

练习:训练模型

在最后一个练习中,你将需要将所学到的内容整合,使用决策树演算法训练一个模型。为了保证你得出的是一个最优模型,你需要使用网格搜索法训练模型,以找到最佳的 'max_depth' 参数。你可以把'max_depth' 参数理解为决策树算法在做出预测前,允许其对数据提出问题的数量。决策树是监督学习算法中的一种。

此外,你会发现你的实现使用的是 ShuffleSplit() 。它也是交叉验证的一种方式(见变量 'cv_sets')。虽然这不是问题8中描述的 K-Fold 交叉验证,这个教程验证方法也很有用!这里 ShuffleSplit() 会创造10个('n_splits')混洗过的集合,每个集合中20%('test_size')的数据会被用作验证集。当你在实现的时候,想一想这跟 K-Fold 交叉验证有哪些相同点,哪些不同点?

在下方 fit_model 函数中,你需要做的是:
- 使用 sklearn.tree 中的 DecisionTreeRegressor 创建一个决策树的回归函数;
- 将这个回归函数储存到 'regressor' 变量中;
- 为 'max_depth' 创造一个字典,它的值是从1至10的数组,并储存到 'params' 变量中;
- 使用 sklearn.metrics 中的 make_scorer 创建一个评分函数;
- 将 performance_metric 作为参数传至这个函数中;
- 将评分函数储存到 'scoring_fnc' 变量中;
- 使用 sklearn.model_selection 中的 GridSearchCV 创建一个网格搜索对象;
- 将变量'regressor', 'params', 'scoring_fnc', 和 'cv_sets' 作为参数传至这个对象中;
- 将 GridSearchCV 存到 'grid' 变量中。

如果有同学对python函数如何传递多个参数不熟悉,可以参考这个MIT课程的视频

# TODO: Import 'make_scorer', 'DecisionTreeRegressor', and 'GridSearchCV'
import sklearn as skl
from sklearn.metrics import make_scorer
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV

def fit_model(X, y):
    """ Performs grid search over the 'max_depth' parameter for a 
        decision tree regressor trained on the input data [X, y]. """

    # Create cross-validation sets from the training data
    cv_sets = ShuffleSplit(n_splits = 10, test_size = 0.20, random_state = 0)

    # TODO: Create a decision tree regressor object
    regressor = DecisionTreeRegressor()

    # TODO: Create a dictionary for the parameter 'max_depth' with a range from 1 to 10
    params = {'max_depth':[1,2,3,4,5,6,7,8,9,10]}

    # TODO: Transform 'performance_metric' into a scoring function using 'make_scorer' 
    scoring_fnc = make_scorer(performance_metric)

    # TODO: Create the grid search object
    grid = GridSearchCV(estimator = regressor,param_grid = params,scoring = scoring_fnc,cv = cv_sets)

    # Fit the grid search object to the data to compute the optimal model
    grid = grid.fit(X, y)

    # Return the optimal model after fitting the data
    return grid.best_estimator_

做出预测

当我们用数据训练出一个模型,它现在就可用于对新的数据进行预测。在决策树回归函数中,模型已经学会对新输入的数据提问,并返回对目标变量的预测值。你可以用这个预测来获取数据未知目标变量的信息,这些数据必须是不包含在训练数据之内的。

问题 9- 最优模型

最优模型的最大深度(maximum depth)是多少?此答案与你在问题 6所做的猜测是否相同?

运行下方区域内的代码,将决策树回归函数代入训练数据的集合,以得到最优化的模型。

# Fit the training data to the model using grid search
reg = fit_model(X_train, y_train)

# Produce the value for 'max_depth'
print "Parameter 'max_depth' is {} for the optimal model.".format(reg.get_params()['max_depth'])
Parameter 'max_depth' is 4 for the optimal model.

**Answer: **Parameter ‘max_depth’ is 4 for the optimal model.这与我在问题6所做猜测相同。

问题 10 - 预测销售价格

想像你是一个在波士顿地区的房屋经纪人,并期待使用此模型以帮助你的客户评估他们想出售的房屋。你已经从你的三个客户收集到以下的资讯:

特征客戶 1客戶 2客戶 3
房屋内房间总数5 间房间4 间房间8 间房间
社区贫困指数(%被认为是贫困阶层)17%32%3%
邻近学校的学生-老师比例15:122:112:1

你会建议每位客户的房屋销售的价格为多少?从房屋特征的数值判断,这样的价格合理吗?

提示:用你在分析数据部分计算出来的统计信息来帮助你证明你的答案。

运行下列的代码区域,使用你优化的模型来为每位客户的房屋价值做出预测。

# Produce a matrix for client data
client_data = [[5, 17, 15], # Client 1
               [4, 32, 22], # Client 2
               [8, 3, 12]]  # Client 3

# Show predictions
for i, price in enumerate(reg.predict(client_data)):
    print "Predicted selling price for Client {}'s home: ${:,.2f}".format(i+1, price)
Predicted selling price for Client 1's home: $391,183.33
Predicted selling price for Client 2's home: $189,123.53
Predicted selling price for Client 3's home: $942,666.67

**答案: **Predicted selling price for Client 1’s home: $391,183.33

Predicted selling price for Client 2’s home: $189,123.53

Predicted selling price for Client 3’s home: $942,666.67

从房屋的特征值来看,这样的价格基本合理。房屋内房间的总数越高则房子的成本越高,进而房价越高;社区贫困指数越低说明聚集的人越富有,一般来说在富人区房价较贫困区更高;再根据我在分析数据部分所下的结论,学生和老师的比例会在一定程度上影响房价,但是不会对房价中位数造成很明显的影响。综合对三个特征向量的分析来看,模型预测出的结果是合理的。

敏感度

一个最优的模型不一定是一个健壮模型。有的时候模型会过于复杂或者过于简单,以致于难以泛化新增添的数据;有的时候模型采用的学习算法并不适用于特定的数据结构;有的时候样本本身可能有太多噪点或样本过少,使得模型无法准确地预测目标变量。这些情况下我们会说模型是欠拟合的。执行下方区域中的代码,采用不同的训练和测试集执行 fit_model 函数10次。注意观察对一个特定的客户来说,预测是如何随训练数据的变化而变化的。

vs.PredictTrials(features, prices, fit_model, client_data)
Trial 1: $391,183.33
Trial 2: $419,700.00
Trial 3: $415,800.00
Trial 4: $420,622.22
Trial 5: $418,377.27
Trial 6: $411,931.58
Trial 7: $399,663.16
Trial 8: $407,232.00
Trial 9: $351,577.61
Trial 10: $413,700.00

Range in prices: $69,044.61

问题 11 - 实用性探讨

简单地讨论一下你建构的模型能否在现实世界中使用?

提示: 回答几个问题,并给出相应结论的理由:
- 1978年所采集的数据,在今天是否仍然适用?
- 数据中呈现的特征是否足够描述一个房屋?
- 模型是否足够健壮来保证预测的一致性?
- 在波士顿这样的大都市采集的数据,能否应用在其它乡镇地区?

**答案: **1978年采集的数据今天肯定不再适用,因为当时的经济条件与现在相比发生了很大的变化。

数据中仅仅呈现了三个特征,特征数量太少且覆盖面太窄不足以描述一个房屋。

通过使用网格搜索以及k折交叉验证等方法我认为模型足够健壮来保证预测的一致性。

在波士顿这种大都市采集的数据是不能用于其它乡镇的。因为乡镇和波士顿的经济发展水平有较大差异,所以影响两地的房价的特征向量会存在明显的不同。

我认为我构建的模型在现实世界中并不能使用,原因在于模型过于简单,即使作用于类似波士顿这样的大城市也不可避免的会存在由于特征数量过少而引起的欠拟合现象。另外,我所构建的模型的训练集、测试集是基于1978年的数据,这与几十年后的今天的情况有很大不同,用这种训练集、测试集得到的模型肯定是不能用在现实世界中的。

可选问题 - 预测北京房价

(本题结果不影响项目是否通过)通过上面的实践,相信你对机器学习的一些常用概念有了很好的领悟和掌握。但利用70年代的波士顿房价数据进行建模的确对我们来说意义不是太大。现在你可以把你上面所学应用到北京房价数据集中bj_housing.csv

免责声明:考虑到北京房价受到宏观经济、政策调整等众多因素的直接影响,预测结果仅供参考。

这个数据集的特征有:
- Area:房屋面积,平方米
- Room:房间数,间
- Living: 厅数,间
- School: 是否为学区房,0或1
- Year: 房屋建造时间,年
- Floor: 房屋所处楼层,层

目标变量:
- Value: 房屋人民币售价,万

你可以参考上面学到的内容,拿这个数据集来练习数据分割与重排、定义衡量标准、训练模型、评价模型表现、使用网格搜索配合交叉验证对参数进行调优并选出最佳参数,比较两者的差别,最终得出最佳模型对验证集的预测分数。

# Import libraries necessary for this project
# 载入此项目所需要的库
import numpy as np
import pandas as pd
import visuals as vs # Supplementary code
from sklearn.model_selection import ShuffleSplit

# Pretty display for notebooks
# 让结果在notebook中显示
%matplotlib inline

# Load the Boston housing dataset
# 载入北京房屋的数据集
data = pd.read_csv('bj_housing.csv')
prices = data['Value']
features = data.drop('Value', axis = 1)

# Success
# 完成
print "Beijing housing dataset has {} data points with {} variables each.".format(*data.shape)

Beijing housing dataset has 9999 data points with 7 variables each.
# TODO: Minimum price of the data
#目标:计算价值的最小值
minimum_price = min(prices)

# TODO: Maximum price of the data
#目标:计算价值的最大值
maximum_price = max(prices)

# TODO: Mean price of the data
#目标:计算价值的平均值
def average(a):
    return float(sum(a))/len(a)
mean_price = average(prices)

# TODO: Median price of the data
#目标:计算价值的中值
median_price = np.median(prices)

# TODO: Standard deviation of prices of the data
#目标:计算价值的标准差
std_price = np.std(prices)

# Show the calculated statistics
#目标:输出计算的结果
print "Statistics for Boston housing dataset:\n"
print "Minimum price: ${:,.2f}".format(minimum_price)
print "Maximum price: ${:,.2f}".format(maximum_price)
print "Mean price: ${:,.2f}".format(mean_price)
print "Median price ${:,.2f}".format(median_price)
print "Standard deviation of prices: ${:,.2f}".format(std_price)
Statistics for Boston housing dataset:

Minimum price: $66.00
Maximum price: $7,450.00
Mean price: $342.08
Median price $280.00
Standard deviation of prices: $259.39
# TODO: Import 'r2_score'
import sklearn as skl
def performance_metric(y_true, y_predict):
    """ Calculates and returns the performance score between 
        true and predicted values based on the metric chosen. """

    # TODO: Calculate the performance score between 'y_true' and 'y_predict'
    score = skl.metrics.r2_score(y_true,y_predict,sample_weight=None,multioutput=None)

    # Return the score
    return score
# TODO: Import 'train_test_split'
import numpy as np
from sklearn.model_selection import train_test_split
# TODO: Shuffle and split the data into training and testing subsets
X_train, X_test, y_train, y_test = train_test_split(features, prices,test_size = 0.20,random_state=0)

# Success
print "Training and testing split was successful."
Training and testing split was successful.
# Produce learning curves for varying training set sizes and maximum depths
vs.ModelLearning(features, prices)

png

vs.ModelComplexity(X_train, y_train)

png

# TODO: Import 'make_scorer', 'DecisionTreeRegressor', and 'GridSearchCV'
import sklearn as skl
from sklearn.metrics import make_scorer
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV

def fit_model(X, y):
    """ Performs grid search over the 'max_depth' parameter for a 
        decision tree regressor trained on the input data [X, y]. """

    # Create cross-validation sets from the training data
    cv_sets = ShuffleSplit(n_splits = 10, test_size = 0.20, random_state = 0)

    # TODO: Create a decision tree regressor object
    regressor = DecisionTreeRegressor()

    # TODO: Create a dictionary for the parameter 'max_depth' with a range from 1 to 10
    params = {'max_depth':[1,2,3,4,5,6,7,8,9,10]}

    # TODO: Transform 'performance_metric' into a scoring function using 'make_scorer' 
    scoring_fnc = make_scorer(performance_metric)

    # TODO: Create the grid search object
    grid = GridSearchCV(estimator = regressor,param_grid = params,scoring = scoring_fnc,cv = cv_sets)

    # Fit the grid search object to the data to compute the optimal model
    grid = grid.fit(X, y)

    # Return the optimal model after fitting the data
    return grid.best_estimator_
# Fit the training data to the model using grid search
reg = fit_model(X_train, y_train)

# Produce the value for 'max_depth'
print "Parameter 'max_depth' is {} for the optimal model.".format(reg.get_params()['max_depth'])
Parameter 'max_depth' is 8 for the optimal model.

你成功的用新的数据集构建了模型了吗?他能对测试数据进行验证吗?它的表现是否符合你的预期?交叉验证是否有助于提升你模型的表现?

答案:通过以上代码的结果,我成功的用新的数据集构建了模型,并且用他对测试数据进行了验证。通过使用交叉验证的方法发现,当最大深度为8时得到最优的模型。

如果你是从零开始构建机器学习的代码会让你一时觉得无从下手。这时不要着急,你要做的只是查看之前写的代码,把每一行都看明白,然后逐步构建你的模型。当中遇到什么问题也可以在我们论坛寻找答案。也许你会发现你所构建的模型的表现并没有达到你的预期,这说明机器学习并非是一项简单的任务,构建一个表现良好的模型需要长时间的研究和测试。这也是我们接下来的课程中会逐渐学到的。

  • 9
    点赞
  • 78
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值