Coursera ML笔记 -----week6 Advice for Applying Machine Learning

最新推荐文章于 2019-04-09 17:21:48 发布

tjl_moby

最新推荐文章于 2019-04-09 17:21:48 发布

阅读量663

点赞数

分类专栏： coursera ml笔记 coursera笔记

本文链接：https://blog.csdn.net/tjl_moby/article/details/69367810

版权

coursera笔记同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

coursera ml笔记

13 篇文章 0 订阅

订阅专栏

欢迎点击作者原文地址

改进自己的机器学习算法系统

当我们初步求出了一个机器学习算法以后，我们希望这个算法的预测或者分类能力是很好的，能够对我们的每一个新的数据做出合理的判断。但是我们实际发现这个算法的错误率其实很高，这个时候我们应该怎么去做，怎么做能够更省力更有效更具有针对性？这就是week6 要解决的问题。

我们很容易就想到的方法有这些：
1.增加训练数据
2.减少特征
3.增加特征
4.增加多项式特征
5.减小 $\lambda$
6.增加 $\lambda$

但是这些方法到底有没有用，或者说，在什么情况下有用，这就是值得去探讨的问题

那我们需要做的其实是三件事情：

1. 评估一个学习出来的算法
2. 判断一个表现不太好的学习算法是出了什么问题？high bias（欠拟合）还是high variance（过拟合）的问题

2.1 model selection

2.1.1 degree of polynomial
2.1.2 bias vs variance
2.1.3 regularize parameter

2.2 learning curve
3. 如何更有效更有针对性地怎么去改善学习算法

1. 怎么样去评估一个已有的算法——>划分数据集

要去评价评估学习到的算法时，很重要的一部分就是要有能够检验的数据，以估计算法的泛化能力。在实际训练中，如果把所有的数据全部都当作是训练数据，固然可以得到拟合效果比较好的学习算法，但是我们并不知道这个算法对新的数据的估计情况。在现有的条件下，我们不妨将现有的数据分成两部分，一部分用来训练(70%)，一部分用来验证(30%)。通过训练数据来训练参数向量，通过验证数据来评价学习到的算法。于是，我们就有一般过程如下：
a. 训练 $\theta，s.t.min J(\theta)$
b. 计算测试集误差 $J_{test}(\theta)$ ，来估计学习算法的泛化能力

在不同的情形下， $J_{test}(\theta)$ 会有不同的形式，但是总体来讲，还是会保持一致性

线性回归：

J t e s t (θ) = 1 2 m \sum i = 1 m t e s t (h θ (x (i) t e s t) - y (i) t e s t) 2

$J_{test}(\theta) = \frac{1}{2m}\sum_{i=1}^{m_{test}}(h_\theta(x^{(i)}_{test})-y^{(i)}_{test})^2$
逻辑回归：

J t e s t (θ) = - 1 m \sum i = 1 m t e s t y (i) t e s t l o g h θ (x (i) t e s t) + (1 - y (i) t e s t) l o g (1 - h θ (x (i) t e s t))

$J_{test}(\theta) = -\frac{1}{m}\sum_{i=1}^{m_{test}}y^{(i)}_{test}log h_\theta(x^{(i)}_{test})+(1-y^{(i)}_{test})log(1- h_\theta(x^{(i)}_{test}))$

2. 判断欠拟合还是过拟合

做完评估以后，我们接着就可以通过“Learning Curve”的判断方式来判断我们的算法究竟是high bias 还是high cvariance 或者两者皆有的问题。其中，high bais就是欠拟合，high variance就是过拟合。

但是我们在考虑learning curve以前，我们需要先做一个工作，model selection。model selection的目的主要是有个：1.引入交叉验证集的概念。2.解释清楚high bias和 high variance这两个概念 3.阐述清楚如何去选择一个更合适的模型，也就是如何确定更合适的参数d,λ，即搞清楚d,λ和bias，variance之间的关系。

理清一下：我们接下来讲清楚两个内容:1.model selection 2.learning curve

2.1 我们解决模型选择的问题。

模型选择主要设计到两个过程和三个参数：1. 多项式次数d 2. 正则化系数λ 3. 特征Θ

2.1.1 这里引入cross validation set并且解释清楚第一个过程：如何选择d

做模型选择的时候，我们首先要做的事情是确定degree of polynomial。增加一个新的参数 $d$ 来表示每一个hypothesis的degree。我们假设有k个不同的假设，每一个k对应了 $h(x)$ 的最高次方数。这个时候我们要做的事情就是要确定这个最合适的 $d$ 。于是参考前面的做法，我们在训练集上将k个假设的参数向量 $\Theta$ 都算出来，然后再计算每个假设的 $J_{test}(\Theta)$ ,选最小者的那个假设。于是我们就把 $d$ 确定了下来。但这又给我们带来了新的问题，我们已经把所有的数据都用掉了，但是这个时候我们只确定了degree，并没有考虑到我们选出来的这个假设对新样本的适应能力(generalization)，或者这样来理解：我们的每一个未知参数都需要一部分数据来做训练和测试。到目前为止，我们有了两个参数，分别是 $\Theta$ 和 $d$ 。又考虑到数据的有限性 + degree和generalization的验证之间的无关性（猜测），所以直接就把训练集作为公共的训练集，然后分别验证两个参数。于是我们就有了6:2:2的训练集:交叉验证集:测试集。
一般步骤如下：
a. k个d训练 $\Theta^{(k)}$
b. 在验证集上确定 $d$ ,也就是考虑满足 $min J_{cv}(\Theta)$ 的 $d$
c. 在测试集上估计泛化的能力,也就是 $J_{test}(\Theta^{(d)})$
以上是关于d的选择思想。我们输入不同的d,最后得到一个d

2.1.2 接下来我们来解释清楚high bias和high variance这两个概念

我们的test error 是由bias² 和variance组成
bias是回归值的期望与实际值之间的差距
variance是回归曲线的波动程度
具体的数学过程这里不多叙述。

这里重点其实是在于我们怎么去区分这两类不同的情况：
区分bias和variance其实是要从 $J_{train}$ 着手的，因为high bias代表着underfit,high variance代表着overfit 这两个不同状态下 $J_{cv}$ 或者 $J_{test}$ 都是很高的，而在underfit的时候 $J_{train}$ 高，overfit的时候 $J_{train}$ 低

2.1.3 最后我们来考虑第二个过程：λ的选择

λ的选择，也是通过类似选择d的方式来进行。
a. 选择k个λ，然后分别计算使得 $min \space J_{\lambda}(\theta)$ 的 $\theta^{(k)}$
b. 代入 $J_{cv}(\theta)$ ,取 $min\space J_{cv}(\theta)$ 所对应的那个λ，作为我们选定的λ
c. 代入计算 $J_{test}(\theta)$

d vs λ 同异
目的都要求一个合适的参数
输入都是要进行比较的多个参数（不妨设k）
过程1 训练k个使得 $min\space J(\theta)$ 的θ 求λ时，θ的训练要用带有正则化项（惩罚项）的 $J_{\lambda}(\theta)$ ,而求d时，训练θ不用带惩罚项
中间输出 $\theta^{(k)}$
过程2 $min\space J_{cv}(\theta)$
最终输出要求的参数d或者λ,并且记录对应的θ，便于计算 $J_{test}(\theta)$

$\\$
最后我们总结一下d，λ和high bias，high variance以及error之间的关系。

在欠拟合的情况下，degree小，λ大这个时候 $J_{train}\approx J_{cv}$ ，并且都很大
在过拟合的情况下，degree大，λ小，这个时候 $J_{cv} \gg J_{train}$

用图表来概括d和λ是怎么引发high bias和high variance的问题的

high bias high variance
d 太小太大
λ 太大太小

2.2 接下来我们又要回到learning curve的内容

首先是理想状态下的learning curve
理想状态下的learing curve，x轴是m（训练集的数量），y轴是error。我们在坐标平面内表示不带λ的 $J_{train}$ 和 $J_{cv}$ ，于是，我们可以看到，m↑时， $J_{train}$ ↑， $J_{cv}$ ↓，并逐渐趋于平缓，两曲线之间有一个距离不算大的gap

接下来是high bais情况下的learning curve
很明显，两条曲线的升降趋势没有太大变化，但是升降的幅度（也就是收敛的速度）快了很多，两者之间的gap极小，几乎贴近（因为数量多了以后，在训练集和验证集上的表现不会有太大的差别）。另外一个值得注意的地方是，两条曲线的收敛值都比之前要大，也就意味着large error

从而，我们知道，在high bias的情况之下，增加训练集数量并没有太多帮助

最后是high variance情况下的learning curve
同样地，曲线的升降趋势没有太大变化，只是收敛的速度b似乎变慢了，比理想状态下还要慢，在同样的m情况下，gap变大了很多。但是有意思的是，随着m的增大，两条曲线最终还是会逐渐靠拢。

于是，我们就知道了，增加训练集数量可能对high variance的情况助益更大

3. 有针对性地改善现有算法

我们前面已经总结了欠拟合和过拟合状态下d和λ的状态，如果我们想要改善所出现的问题，我们就可以从d,λ和m上下手

所处状态 high bias high variance
d 太小太大
λ 太大太小

$\\$

如何解决 high bias high variance
d 增大d 减小d
λ 减小λ 增大λ
m 无能无力增加m

$\\$
把上面的表格表达成更易理解的语言，就可以回到我们一开始的问题

1.增加训练数据 ———-> 解决过拟合 m↑
2.减少特征 ———-> 解决过拟合 d↓
3.增加特征 ———-> 解决欠拟合 d ↑
4.增加多项式特征 ———-> 解决欠拟合 d ↑
5.减小 $\lambda$ ———-> 解决欠拟合 λ↓
6.增加 $\lambda$ ———-> 解决过拟合 λ↑

至此，我们就解决了我们一开始提出的三个问题。

ps:文中所有图的来源是Ng的课程视频截图和讲义截图

======================================
其他的一些想法

我们做这些的目的就是减少error

这里有两个问题，一个是为什么只用了traing set 和cross validation set?另外一个是究竟怎么去判断大和小的问题

验证集和测试集的本质都是用来做测试的数据，只是用途不一样，一个用来测试degree 另外一个用来测试θ
d,λ,m到底是大还是小我们其实不用知道，因为我们使用的这三个参数其实是一个相对的大小。我们只要去比较 $J_{train}$ 和 $J_{cv}$ 的大小，然后根据我们判断出来的情况，决定是在现有的参数基础上往增加的方向还是减小的方向即可。

3.彩蛋。作者本人可见

d vs λ	同	异
目的	都要求一个合适的参数
输入	都是要进行比较的多个参数（不妨设k）
过程1	训练k个使得 $min\space J(\theta)$ 的θ	求λ时，θ的训练要用带有正则化项（惩罚项）的 $J_{\lambda}(\theta)$ ,而求d时，训练θ不用带惩罚项
中间输出	$\theta^{(k)}$
过程2	$min\space J_{cv}(\theta)$
最终输出	要求的参数d或者λ,并且记录对应的θ，便于计算 $J_{test}(\theta)$

	high bias	high variance
d	太小	太大
λ	太大	太小

所处状态	high bias	high variance
d	太小	太大
λ	太大	太小

如何解决	high bias	high variance
d	增大d	减小d
λ	减小λ	增大λ
m	无能无力	增加m

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

tjl_moby

关注关注

0
点赞

踩

0

收藏

觉得还不错? 一键收藏

0
评论

Coursera ML笔记 -----week6 Advice for Applying Machine Learning

改进自己的机器学习算法系统
复制链接

扫一扫

专栏目录

模型欠拟合和过拟合解决办法

码灵薯的博客

03-14 6665

欠拟合（underfiting / high bias）训练误差和验证误差都很大，这种情况称为欠拟合。出现欠拟合的原因是模型尚未学习到数据的真实结构。因此，模拟在训练集和验证集上的性能都很差。解决办法做特征工程，添加跟多的特征项。如果欠拟合是由于特征项不够，没有足够的信息支持模型做判断。增加模型复杂度。如果模型太简单，不能够应对复杂的任务。可以使用更复杂的模型，减小正则化系...

coursera-machine-learning:

05-17

标题 "Coursera-Machine-Learning" 指的是Andrew Ng教授在Coursera平台上的经典机器学习课程。这门课程涵盖了广泛的机器学习概念、算法和技术，是许多初学者和专业人士入门机器学习的重要资源。描述提到的“编程作业...

参与评论您还未登录，请先登录后发表或查看评论

Coursera Machine Learning 第六周编程week6 ex5Regularized Linear Regression and Bias/Variance编程全套满分题目+注释选做

sinat_39805237的博客

12-13 727

资源链接：http://download.csdn.net/download/sinat_39805237/10157407 lambda=0时 lambda=1时 lambda=100时改变lambda时error的变化最后的选做结果，恕愚钝，半天才解好，望批评指正。

吴恩达机器学习笔记（week6——）

u012084802的博客

06-01 753

http://ai-start.com/ml2014/html/week6.htmlWeek6十、应用机器学习的建议(Advice for Applying Machine Learning)10.1 决定下一步做什么10.2 评估一个假设10.3 模型选择和交叉验证集10.4 诊断偏差和方差10.5 正则化和偏差/方差10.6 学习曲线10.7 决定下一步做什么十一、机器学习系统的设计(Mach...

吴恩达机器学习 EX6 作业第一部分了解支持向量机高斯核函数

lsnow8624的博客

04-09 1395

1、支持向量机支持向量机比较复杂，看了好多遍讲义对深入原理还不是很理解。想深入研究的可以看支持向量机通俗导论（理解SVM的三层境界） 1.1 作业介绍在本练习的前半部分，您将使用支持向量机。各种示例2D数据集。使用这些数据集进行实验将帮助您直观地了解支持向量机如何工作，以及如何使用支持向量机的高斯内核。 1.2 导入模块和数据导入模块 import matplotlib.pyplot as ...

如何申请Coursera课程助学金及获得证书

热门推荐

SilentSummer的博客

05-06 2万+

Coursera攻略。。。

coursera-machine-learning：Coursera的机器学习课程中的MATLAB作业

02-03

在“coursera-machine-learning-master”文件中，可能包含了各个单元的作业代码，包括数据加载、模型训练、结果评估等步骤。通过这些实例，你可以深入理解机器学习理论，并提高MATLAB编程技能。总之，MATLAB在机器...

Coursera-Machine-Learning:Ng的机器学习笔记和作业-Python3代码

04-30

不过笔者觉得无论是对 Machine Learning 的学习还是对未来工程项目的开发 Python 都更为合适。所以笔者就使用 Python 将课程作业重新实现了一遍。希望这个项目能帮助大家理清课程的内容，理解算法背后的模型，掌握...

Coursera-Ng-Deep-Learning-Specialization:笔记本快速搜索

05-09

第2周：建立逻辑回归模型，构建为浅层神经网络实现ML算法的主要步骤，包括进行预测，导数计算和梯度下降。实现高效计算，高度矢量化的模型版本。了解如何使用反向传播思维方式为逻辑回归计算导数。熟悉Python和...

coursera-machine-learning:在Coursera教授的Marchine学习课程的解决方案代码

05-05

在解压后的文件夹“coursera-machine-learning-master”中，你可以找到按课程章节划分的子文件夹，每个子文件夹包含了相应的练习和项目代码。代码通常由.m文件组成，这是MATLAB的脚本或函数文件。通过阅读和运行这些...

大白话解释模型产生过拟合的原因

Jinlong_Xu的博客

05-23 1万+

一、过拟合的概念？首先我们来解释一下过拟合的概念？过拟合就是训练出来的模型在训练集上表现很好，但是在测试集上表现较差的一种现象！下图给出例子：我们将上图第三个模型解释为出现了过拟合现象，过度的拟合了训练数据，而没有考虑到泛化能力。在训练集上的准确率和在开发集上的准确率画在一个图上如下：从图中我们能够看出，模型在训练集上表现很好，但是在交叉验证

教你简单解决过拟合问题（附公式）

数据派THU

02-13 9963

作者：Ahmed Gad翻译：韩海畴校对：丁楠雅本文约2000字，建议阅读5分钟。本文带大家认识了什么是过拟合，并且示范了用正则化的方法来避免过拟合的问题。多项式回归&过拟合你可能训练过这样的机器学习模型，它在训练样本上表现得无可挑剔，却在新样本预测上一塌糊涂。你可曾想过为什么会发生这种问题吗？本文解释了作为其中原因之一的过拟合，并用简单步骤示范了基于回归的正则化方法来避免过拟合问题。机器学习就是

Coursera/py4inf/python data structure 笔记密歇根大学

tjl_moby的博客

09-26 1137

Coursera 上课程python data structure的笔记

Coursera ML笔记 -----week9-1 异常检测

tjl_moby的博客

04-29 794

异常检测

Coursera ML笔记 -----week6 -2 Machine Learning System Design

tjl_moby的博客

04-07 477

设计一个机器学习的系统

Coursera ML笔记 -----week8-2 数据降维

tjl_moby的博客

04-28 439

数据降维

Coursera ML笔记 -----week9-2 推荐系统

tjl_moby的博客

04-30 408

推荐系统

Coursera ML笔记 -----week5 Neural Network，Back Propagation

tjl_moby的博客

03-29 400

后向传播算法

coursera-ml-andrewng-notes-master.zip

最新发布

06-27

coursera-ml-andrewng-notes-master.zip 是一个 Coursera Machine Learning 课程的笔记和教材的压缩包，由学生或者讲师编写。这个压缩包中包括了 Andrew Ng 教授在 Coursera 上发布的 Machine Learning 课程的全部...

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交