机器学习
模型评价与验证
项目 1: 预测波士顿房价
欢迎来到机器学习工程师纳米学位的第一个项目!在此文件中,有些示例代码已经提供给你,但你还需要实现更多的功能来让项目成功运行。除非有明确要求,你无须修改任何已给出的代码。以编程练习开始的标题表示接下来的内容中有需要你必须实现的功能。每一部分都会有详细的指导,需要实现的部分也会在注释中以TODO标出。请仔细阅读所有的提示!
除了实现代码外,你还必须回答一些与项目和实现有关的问题。每一个需要你回答的问题都会以‘问题 X’为标题。请仔细阅读每个问题,并且在问题后的‘回答’文字框中写出完整的答案。你的项目将会根据你对问题的回答和撰写代码所实现的功能来进行评分。
提示:**Code 和 Markdown 区域可通过 **Shift + Enter 快捷键运行。此外,Markdown可以通过双击进入编辑模式。
第一步. 导入数据
在这个项目中,你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型,并对模型的性能和预测能力进行测试。通过该数据训练后的好的模型可以被用来对房屋做特定预测—尤其是对房屋的价值。对于房地产经纪等人的日常工作来说,这样的预测模型被证明非常有价值。
此项目的数据集来自UCI机器学习知识库(数据集已下线)。波士顿房屋这些数据于1978年开始统计,共506个数据点,涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理:
- 有16个'MEDV'
值为50.0的数据点被移除。 这很可能是由于这些数据点包含遗失或看不到的值。
- 有1个数据点的 'RM'
值为8.78. 这是一个异常值,已经被移除。
- 对于本项目,房屋的'RM'
, 'LSTAT'
,'PTRATIO'
以及'MEDV'
特征是必要的,其余不相关特征已经被移除。
- 'MEDV'
特征的值已经过必要的数学转换,可以反映35年来市场的通货膨胀效应。
运行下面区域的代码以载入波士顿房屋数据集,以及一些此项目所需的Python库。如果成功返回数据集的大小,表示数据集已载入成功。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 1
- 2
第二步. 分析数据
在项目的第一个部分,你会对波士顿房地产数据进行初步的观察并给出你的分析。通过对数据的探索来熟悉数据可以让你更好地理解和解释你的结果。
由于这个项目的最终目标是建立一个预测房屋价值的模型,我们需要将数据集分为特征(features)和目标变量(target variable)。
- 特征
'RM'
,'LSTAT'
,和'PTRATIO'
,给我们提供了每个数据点的数量相关的信息。 - 目标变量:
'MEDV'
,是我们希望预测的变量。
他们分别被存在features
和prices
两个变量名中。
编程练习 1:基础统计运算
你的第一个编程练习是计算有关波士顿房价的描述统计数据。我们已为你导入了numpy
,你需要使用这个库来执行必要的计算。这些统计数据对于分析模型的预测结果非常重要的。
在下面的代码中,你要做的是:
- 计算
prices
中的'MEDV'
的最小值、最大值、均值、中值和标准差; - 将运算结果储存在相应的变量中。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
问题 1 - 特征观察
如前文所述,本项目中我们关注的是其中三个值:'RM'
、'LSTAT'
和'PTRATIO'
,对每一个数据点:
'RM'
是该地区中每个房屋的平均房间数量;'LSTAT'
是指该地区有多少百分比的房东属于是低收入阶层(有工作但收入微薄);'PTRATIO'
是该地区的中学和小学里,学生和老师的数目比(学生/老师
)。
凭直觉,上述三个特征中对每一个来说,你认为增大该特征的数值,'MEDV'
的值会是增大还是减小呢?每一个答案都需要你给出理由。
提示:你预期一个'RM'
值是6的房屋跟'RM'
值是7的房屋相比,价值更高还是更低呢?
问题 1 - 回答:
- RM:该值增加,MEDV也会增加。因为随着房屋数量的增加,相对房屋价格应该会减小。
- LSTAT:该值增加,MEDV会减小。因为低收入者多的地方,他们居住的地区房屋价格会低一些。
- PTRATIO:该值增加,MEDV会减小。因为师生数量比表明了一个地方教育发展状况,比值越大,说明该地区缺老师,教育状况较差,因此该地区房价也会低。
编程练习 2: 数据分割与重排
接下来,你需要把波士顿房屋数据集分成训练和测试两个子集。通常在这个过程中,数据也会被重排列,以消除数据集中由于顺序而产生的偏差。
在下面的代码中,你需要
使用 sklearn.model_selection
中的 train_test_split
, 将features
和prices
的数据都分成用于训练的数据子集和用于测试的数据子集。
- 分割比例为:80%的数据用于训练,20%用于测试;
- 选定一个数值以设定 train_test_split
中的 random_state
,这会确保结果的一致性;
- 1
- 2
- 3
- 4
- 5
问题 2 - 训练及测试
将数据集按一定比例分为训练用的数据集和测试用的数据集对学习算法有什么好处?
如果用模型已经见过的数据,例如部分训练集数据进行测试,又有什么坏处?
提示: 如果没有数据来对模型进行测试,会出现什么问题?
问题 2 - 回答:
- 将数据集分成训练集和测试集的好处:既可以用于训练又可以用于测试,而且不会相互干扰,而且可以对训练模型进行有效的验证。
- 用部分训练集进行测试的坏处:模型就是根据训练集得出的,使用训练集进行测试肯定会得出较好的结果,这不能判断训练模型的优劣。
第三步. 模型衡量标准
在项目的第三步中,你需要了解必要的工具和技巧来让你的模型进行预测。用这些工具和技巧对每一个模型的表现做精确的衡量可以极大地增强你预测的信心。
编程练习3:定义衡量标准
如果不能对模型的训练和测试的表现进行量化地评估,我们就很难衡量模型的好坏。通常我们会定义一些衡量标准,这些标准可以通过对某些误差或者拟合程度的计算来得到。在这个项目中,你将通过运算决定系数 R2 来量化模型的表现。模型的决定系数是回归分析中十分常用的统计信息,经常被当作衡量模型预测能力好坏的标准。
R2的数值范围从0至1,表示目标变量的预测值和实际值之间的相关程度平方的百分比。一个模型的R2 值为0还不如直接用平均值来预测效果好;而一个R2 值为1的模型则可以对目标变量进行完美的预测。从0至1之间的数值,则表示该模型中目标变量中有百分之多少能够用特征来解释。模型也可能出现负值的R2,这种情况下模型所做预测有时会比直接计算目标变量的平均值差很多。
在下方代码的 performance_metric
函数中,你要实现:
- 使用
sklearn.metrics
中的r2_score
来计算y_true
和y_predict
的R2值,作为对其表现的评判。 - 将他们的表现评分储存到
score
变量中。
或
- (可选) 不使用任何外部库,参考决定系数的定义进行计算,这也可以帮助你更好的理解决定系数在什么情况下等于0或等于1。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
问题 3 - 拟合程度
假设一个数据集有五个数据且一个模型做出下列目标变量的预测:
真实数值 | 预测数值 |
---|---|
3.0 | 2.5 |
-0.5 | 0.0 |
2.0 | 2.1 |
7.0 | 7.8 |
4.2 | 5.3 |
你觉得这个模型已成功地描述了目标变量的变化吗?如果成功,请解释为什么,如果没有,也请给出原因。
提示:运行下方的代码,使用performance_metric
函数来计算模型的决定系数。
- 1
- 2
- 3
- 1
- 2
问题 3 - 回答:
根据得出的R2分数来看,该模型比较好的描述了目标变量的变化。因为R2=0.923。
第四步. 分析模型的表现
在项目的第四步,我们来看一下不同参数下,模型在训练集和验证集上的表现。这里,我们专注于一个特定的算法(带剪枝的决策树,但这并不是这个项目的重点),和这个算法的一个参数 'max_depth'
。用全部训练集训练,选择不同'max_depth'
参数,观察这一参数的变化如何影响模型的表现。画出模型的表现来对于分析过程十分有益,这可以让我们看到一些单看结果看不到的行为。
学习曲线
下方区域内的代码会输出四幅图像,它们是一个决策树模型在不同最大深度下的表现。每一条曲线都直观得显示了随着训练数据量的增加,模型学习曲线的在训练集评分和验证集评分的变化,评分使用决定系数R2。曲线的阴影区域代表的是该曲线的不确定性(用标准差衡量)。
运行下方区域中的代码,并利用输出的图形回答下面的问题。
- 1
- 2
问题 4 - 学习曲线
选择上述图像中的其中一个,并给出其最大深度。随着训练数据量的增加,训练集曲线的评分有怎样的变化?验证集曲线呢?如果有更多的训练数据,是否能有效提升模型的表现呢?
提示:学习曲线的评分是否最终会收敛到特定的值?
问题 4 - 回答:
最大深度为3时,随着训练数据的增加,训练集曲线的评分趋于稳定大约为0.8,验证集的评分也趋于稳定在接近0.8的附近。很显然训练集数据评分趋于稳定,再增加训练数据不能提升模型的表现。
复杂度曲线
下列代码内的区域会输出一幅图像,它展示了一个已经经过训练和验证的决策树模型在不同最大深度条件下的表现。这个图形将包含两条曲线,一个是训练集的变化,一个是验证集的变化。跟学习曲线相似,阴影区域代表该曲线的不确定性,模型训练和测试部分的评分都用的 performance_metric
函数。
运行下方区域中的代码,并利用输出的图形并回答下面的两个问题。
- 1
- 2
问题 5 - 偏差(bias)与方差(variance)之间的权衡取舍
当模型以最大深度 1训练时,模型的预测是出现很大的偏差还是出现了很大的方差?当模型以最大深度10训练时,情形又如何呢?图形中的哪些特征能够支持你的结论?
提示: 你如何得知模型是否出现了偏差很大或者方差很大的问题?
问题 5 - 回答:
- 模型以最大深度为1训练时,模型的预测出现了较大的偏差,因为R2分数较低,说明属于欠拟合。
- 模型以最大深度为10训练时,模型的预测出现了较大的方差,因为训练集的分数和测试集的分数相差较大。图像中,随着深度的增加,红色和绿色线条之间的距离越来越大。
问题 6- 最优模型的猜测
结合问题 5 中的图,你认为最大深度是多少的模型能够最好地对未见过的数据进行预测?你得出这个答案的依据是什么?
问题 6 - 回答:
深度为3时,模型能够较好的对未见过的数据进行预测。因为在深度为3时,测试集的分数基本达到最高,而且测试集与训练集之间的分数差异最小。
第五步. 选择最优参数
问题 7- 网格搜索(Grid Search)
什么是网格搜索法?如何用它来优化模型?
问题 7 - 回答:
根据给定的模型自动进行交叉验证,通过调节每一个参数来跟踪评分结果.
参数是通过for循环的方式进行组合的,从而实现跟踪每一组参数进行评分结果。
问题 8 - 交叉验证
- 什么是K折交叉验证法(k-fold cross-validation)?
- GridSearchCV是如何结合交叉验证来完成对最佳参数组合的选择的?
- GridSearchCV中的
'cv_results_'
属性能告诉我们什么? - 网格搜索时如果不使用交叉验证会有什么问题?交叉验证又是如何解决这个问题的?
提示: 在下面 fit_model函数最后加入 print pd.DataFrame(grid.cv_results_)
可以帮你查看更多信息。
问题 8 - 回答:
- 将训练集数据分成K份,取其中一份作测试集,余下的k-1份作为训练数据,得出k个测试分数求平均值。
- 对于一组参数,首先调节其中一个影响最大的参数,直到调节为最优,然后再调节第二个参数到最优。从而选择一组最佳参数组合。而其通过调节其cv参数来实现与较差验证来实现最佳参数的选择。
- 交叉验证的结果。
- 如果不结合交叉验证的话,要自己实现不同的验证组合方式。
编程练习 4:训练最优模型
在这个练习中,你将需要将所学到的内容整合,使用决策树算法训练一个模型。为了得出的是一个最优模型,你需要使用网格搜索法训练模型,以找到最佳的 'max_depth'
参数。你可以把'max_depth'
参数理解为决策树算法在做出预测前,允许其对数据提出问题的数量。决策树是监督学习算法中的一种。
在下方 fit_model
函数中,你需要做的是:
- 定义
'cross_validator'
变量: 使用sklearn.model_selection
中的KFold
创建一个交叉验证生成器对象; - 定义
'regressor'
变量: 使用sklearn.tree
中的DecisionTreeRegressor
创建一个决策树的回归函数; - 定义
'params'
变量: 为'max_depth'
参数创造一个字典,它的值是从1至10的数组; - 定义
'scoring_fnc'
变量: 使用sklearn.metrics
中的make_scorer
创建一个评分函数;
将‘performance_metric’
作为参数传至这个函数中; - 定义
'grid'
变量: 使用sklearn.model_selection
中的GridSearchCV
创建一个网格搜索对象;将变量'regressor'
,'params'
,'scoring_fnc'
和'cross_validator'
作为参数传至这个对象构造函数中;
如果你对python函数的默认参数定义和传递不熟悉,可以参考这个MIT课程的视频。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
编程练习 4:训练最优模型 (可选)
在这个练习中,你将需要将所学到的内容整合,使用决策树算法训练一个模型。为了得出的是一个最优模型,你需要使用网格搜索法训练模型,以找到最佳的 'max_depth'
参数。你可以把'max_depth'
参数理解为决策树算法在做出预测前,允许其对数据提出问题的数量。决策树是监督学习算法中的一种。
在下方 fit_model
函数中,你需要做的是:
- 遍历参数
‘max_depth’
的可选值 1~10,构造对应模型 - 计算当前模型的交叉验证分数
- 返回最优交叉验证分数对应的模型
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
问题 9 - 最优模型
最优模型的最大深度(maximum depth)是多少?此答案与你在问题 6所做的猜测是否相同?
运行下方区域内的代码,将决策树回归函数代入训练数据的集合,以得到最优化的模型。
- 1
- 2
- 3
- 4
- 5
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
问题 9 - 回答:
深度为4,
与6中回答的基本一致
第六步. 做出预测
当我们用数据训练出一个模型,它现在就可用于对新的数据进行预测。在决策树回归函数中,模型已经学会对新输入的数据提问,并返回对目标变量的预测值。你可以用这个预测来获取数据未知目标变量的信息,这些数据必须是不包含在训练数据之内的。
问题 10 - 预测销售价格
想像你是一个在波士顿地区的房屋经纪人,并期待使用此模型以帮助你的客户评估他们想出售的房屋。你已经从你的三个客户收集到以下的资讯:
特征 | 客戶 1 | 客戶 2 | 客戶 3 |
---|---|---|---|
房屋内房间总数 | 5 间房间 | 4 间房间 | 8 间房间 |
社区贫困指数(%被认为是贫困阶层) | 17% | 32% | 3% |
邻近学校的学生-老师比例 | 15:1 | 22:1 | 12:1 |
你会建议每位客户的房屋销售的价格为多少?从房屋特征的数值判断,这样的价格合理吗?为什么?
提示:用你在分析数据部分计算出来的统计信息来帮助你证明你的答案。
运行下列的代码区域,使用你优化的模型来为每位客户的房屋价值做出预测。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 1
- 2
- 3
- 4
问题 10 - 回答:
-
Client 1’s home: $406,933.33
-
Client 2’s home: $232,200.00
-
Client 3’s home: 938,053.85
合理,房价的均值为 454,342.94,这里计算的均值为约 525,000,相差不大;并且处在实际房价的最大值( 1,024,800.00)和最小值( 105,000.00)之间。因此比较合理。
编程练习 5
你刚刚预测了三个客户的房子的售价。在这个练习中,你将用你的最优模型在整个测试数据上进行预测, 并计算相对于目标变量的决定系数 R2的值**。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 1
- 2
问题11 - 分析决定系数
你刚刚计算了最优模型在测试集上的决定系数,你会如何评价这个结果?
问题11 - 回答
仅仅有0.75的测试结果,说明以上的最优模型基本符合要求。
模型健壮性
一个最优的模型不一定是一个健壮模型。有的时候模型会过于复杂或者过于简单,以致于难以泛化新增添的数据;有的时候模型采用的学习算法并不适用于特定的数据结构;有的时候样本本身可能有太多噪点或样本过少,使得模型无法准确地预测目标变量。这些情况下我们会说模型是欠拟合的。
问题 12 - 模型健壮性
模型是否足够健壮来保证预测的一致性?
提示: 执行下方区域中的代码,采用不同的训练和测试集执行 fit_model
函数10次。注意观察对一个特定的客户来说,预测是如何随训练数据的变化而变化的。
- 1
- 2
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
问题 12 - 回答:
健壮,因为10次预测的结果差异都在400万左右。
问题 13 - 实用性探讨
简单地讨论一下你建构的模型能否在现实世界中使用?
提示:回答以下几个问题,并给出相应结论的理由:
- 1978年所采集的数据,在已考虑通货膨胀的前提下,在今天是否仍然适用?
- 数据中呈现的特征是否足够描述一个房屋?
- 在波士顿这样的大都市采集的数据,能否应用在其它乡镇地区?
- 你觉得仅仅凭房屋所在社区的环境来判断房屋价值合理吗?
问题 13 - 回答:
-
1,不适用,因为相关的政策医疗,地区的发展状况都发生了变化。
-
2,不能,房屋的价格还和设计、外观、新旧程度等相关。
-
3,不能,不同的地区人们对待房屋价格的考量因素不同。
-
4,不合理,因为房屋的价格跟房屋的质量,房屋的新旧程度,房屋的装修程度有关系。