Coursera ML笔记 -----week6 Advice for Applying Machine Learning

最新推荐文章于 2022-02-07 16:09:11 发布

tjl_moby

最新推荐文章于 2022-02-07 16:09:11 发布

阅读量746

点赞数

分类专栏： coursera ml笔记 coursera笔记

本文链接：https://blog.csdn.net/tjl_moby/article/details/69367810

版权

coursera笔记同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

coursera ml笔记

13 篇文章 0 订阅

订阅专栏

欢迎点击作者原文地址

改进自己的机器学习算法系统

当我们初步求出了一个机器学习算法以后，我们希望这个算法的预测或者分类能力是很好的，能够对我们的每一个新的数据做出合理的判断。但是我们实际发现这个算法的错误率其实很高，这个时候我们应该怎么去做，怎么做能够更省力更有效更具有针对性？这就是week6 要解决的问题。

我们很容易就想到的方法有这些：
1.增加训练数据
2.减少特征
3.增加特征
4.增加多项式特征
5.减小 $\lambda$
6.增加 $\lambda$

但是这些方法到底有没有用，或者说，在什么情况下有用，这就是值得去探讨的问题

那我们需要做的其实是三件事情：

1. 评估一个学习出来的算法
2. 判断一个表现不太好的学习算法是出了什么问题？high bias（欠拟合）还是high variance（过拟合）的问题

2.1 model selection

2.1.1 degree of polynomial
2.1.2 bias vs variance
2.1.3 regularize parameter

2.2 learning curve
3. 如何更有效更有针对性地怎么去改善学习算法

1. 怎么样去评估一个已有的算法——>划分数据集

要去评价评估学习到的算法时，很重要的一部分就是要有能够检验的数据，以估计算法的泛化能力。在实际训练中，如果把所有的数据全部都当作是训练数据，固然可以得到拟合效果比较好的学习算法，但是我们并不知道这个算法对新的数据的估计情况。在现有的条件下，我们不妨将现有的数据分成两部分，一部分用来训练(70%)，一部分用来验证(30%)。通过训练数据来训练参数向量，通过验证数据来评价学习到的算法。于是，我们就有一般过程如下：
a. 训练 $\theta，s.t.min J(\theta)$
b. 计算测试集误差 $J_{test}(\theta)$ ，来估计学习算法的泛化能力

在不同的情形下， $J_{test}(\theta)$ 会有不同的形式，但是总体来讲，还是会保持一致性

线性回归：

J t e s t (θ) = 1 2 m \sum i = 1 m t e s t (h θ (x (i) t e s t) - y (i) t e s t) 2

$J_{test}(\theta) = \frac{1}{2m}\sum_{i=1}^{m_{test}}(h_\theta(x^{(i)}_{test})-y^{(i)}_{test})^2$
逻辑回归：

J t e s t (θ) = - 1 m \sum i = 1 m t e s t y (i) t e s t l o g h θ (x (i) t e s t) + (1 - y (i) t e s t) l o g (1 - h θ (x (i) t e s t))

$J_{test}(\theta) = -\frac{1}{m}\sum_{i=1}^{m_{test}}y^{(i)}_{test}log h_\theta(x^{(i)}_{test})+(1-y^{(i)}_{test})log(1- h_\theta(x^{(i)}_{test}))$

2. 判断欠拟合还是过拟合

做完评估以后，我们接着就可以通过“Learning Curve”的判断方式来判断我们的算法究竟是high bias 还是high cvariance 或者两者皆有的问题。其中，high bais就是欠拟合，high variance就是过拟合。

但是我们在考虑learning curve以前，我们需要先做一个工作，model selection。model selection的目的主要是有个：1.引入交叉验证集的概念。2.解释清楚high bias和 high variance这两个概念 3.阐述清楚如何去选择一个更合适的模型，也就是如何确定更合适的参数d,λ，即搞清楚d,λ和bias，variance之间的关系。

理清一下：我们接下来讲清楚两个内容:1.model selection 2.learning curve

2.1 我们解决模型选择的问题。

模型选择主要设计到两个过程和三个参数：1. 多项式次数d 2. 正则化系数λ 3. 特征Θ

2.1.1 这里引入cross validation set并且解释清楚第一个过程：如何选择d

做模型选择的时候，我们首先要做的事情是确定degree of polynomial。增加一个新的参数 $d$ 来表示每一个hypothesis的degree。我们假设有k个不同的假设，每一个k对应了 $h(x)$ 的最高次方数。这个时候我们要做的事情就是要确定这个最合适的 $d$ 。于是参考前面的做法，我们在训练集上将k个假设的参数向量 $\Theta$ 都算出来，然后再计算每个假设的 $J_{test}(\Theta)$ ,选最小者的那个假设。于是我们就把 $d$ 确定了下来。但这又给我们带来了新的问题，我们已经把所有的数据都用掉了，但是这个时候我们只确定了degree，并没有考虑到我们选出来的这个假设对新样本的适应能力(generalization)，或者这样来理解：我们的每一个未知参数都需要一部分数据来做训练和测试。到目前为止，我们有了两个参数，分别是 $\Theta$ 和 $d$ 。又考虑到数据的有限性 + degree和generalization的验证之间的无关性（猜测），所以直接就把训练集作为公共的训练集，然后分别验证两个参数。于是我们就有了6:2:2的训练集:交叉验证集:测试集。
一般步骤如下：
a. k个d训练 $\Theta^{(k)}$
b. 在验证集上确定 $d$ ,也就是考虑满足 $min J_{cv}(\Theta)$ 的 $d$
c. 在测试集上估计泛化的能力,也就是 $J_{test}(\Theta^{(d)})$
以上是关于d的选择思想。我们输入不同的d,最后得到一个d

2.1.2 接下来我们来解释清楚high bias和high variance这两个概念

我们的test error 是由bias² 和variance组成
bias是回归值的期望与实际值之间的差距
variance是回归曲线的波动程度
具体的数学过程这里不多叙述。

这里重点其实是在于我们怎么去区分这两类不同的情况：
区分bias和variance其实是要从 $J_{train}$ 着手的，因为high bias代表着underfit,high variance代表着overfit 这两个不同状态下 $J_{cv}$ 或者 $J_{test}$ 都是很高的，而在underfit的时候 $J_{train}$ 高，overfit的时候 $J_{train}$ 低

2.1.3 最后我们来考虑第二个过程：λ的选择

λ的选择，也是通过类似选择d的方式来进行。
a. 选择k个λ，然后分别计算使得 $min \space J_{\lambda}(\theta)$ 的 $\theta^{(k)}$
b. 代入 $J_{cv}(\theta)$ ,取 $min\space J_{cv}(\theta)$ 所对应的那个λ，作为我们选定的λ
c. 代入计算 $J_{test}(\theta)$

d vs λ 同异
目的都要求一个合适的参数
输入都是要进行比较的多个参数（不妨设k）
过程1 训练k个使得 $min\space J(\theta)$ 的θ 求λ时，θ的训练要用带有正则化项（惩罚项）的 $J_{\lambda}(\theta)$ ,而求d时，训练θ不用带惩罚项
中间输出 $\theta^{(k)}$
过程2 $min\space J_{cv}(\theta)$
最终输出要求的参数d或者λ,并且记录对应的θ，便于计算 $J_{test}(\theta)$

$\\$
最后我们总结一下d，λ和high bias，high variance以及error之间的关系。

在欠拟合的情况下，degree小，λ大这个时候 $J_{train}\approx J_{cv}$ ，并且都很大
在过拟合的情况下，degree大，λ小，这个时候 $J_{cv} \gg J_{train}$

用图表来概括d和λ是怎么引发high bias和high variance的问题的

high bias high variance
d 太小太大
λ 太大太小

2.2 接下来我们又要回到learning curve的内容

首先是理想状态下的learning curve
理想状态下的learing curve，x轴是m（训练集的数量），y轴是error。我们在坐标平面内表示不带λ的 $J_{train}$ 和 $J_{cv}$ ，于是，我们可以看到，m↑时， $J_{train}$ ↑， $J_{cv}$ ↓，并逐渐趋于平缓，两曲线之间有一个距离不算大的gap

接下来是high bais情况下的learning curve
很明显，两条曲线的升降趋势没有太大变化，但是升降的幅度（也就是收敛的速度）快了很多，两者之间的gap极小，几乎贴近（因为数量多了以后，在训练集和验证集上的表现不会有太大的差别）。另外一个值得注意的地方是，两条曲线的收敛值都比之前要大，也就意味着large error

从而，我们知道，在high bias的情况之下，增加训练集数量并没有太多帮助

最后是high variance情况下的learning curve
同样地，曲线的升降趋势没有太大变化，只是收敛的速度b似乎变慢了，比理想状态下还要慢，在同样的m情况下，gap变大了很多。但是有意思的是，随着m的增大，两条曲线最终还是会逐渐靠拢。

于是，我们就知道了，增加训练集数量可能对high variance的情况助益更大

3. 有针对性地改善现有算法

我们前面已经总结了欠拟合和过拟合状态下d和λ的状态，如果我们想要改善所出现的问题，我们就可以从d,λ和m上下手

所处状态 high bias high variance
d 太小太大
λ 太大太小

$\\$

如何解决 high bias high variance
d 增大d 减小d
λ 减小λ 增大λ
m 无能无力增加m

$\\$
把上面的表格表达成更易理解的语言，就可以回到我们一开始的问题

1.增加训练数据 ———-> 解决过拟合 m↑
2.减少特征 ———-> 解决过拟合 d↓
3.增加特征 ———-> 解决欠拟合 d ↑
4.增加多项式特征 ———-> 解决欠拟合 d ↑
5.减小 $\lambda$ ———-> 解决欠拟合 λ↓
6.增加 $\lambda$ ———-> 解决过拟合 λ↑

至此，我们就解决了我们一开始提出的三个问题。

ps:文中所有图的来源是Ng的课程视频截图和讲义截图

======================================
其他的一些想法

我们做这些的目的就是减少error

这里有两个问题，一个是为什么只用了traing set 和cross validation set?另外一个是究竟怎么去判断大和小的问题

验证集和测试集的本质都是用来做测试的数据，只是用途不一样，一个用来测试degree 另外一个用来测试θ
d,λ,m到底是大还是小我们其实不用知道，因为我们使用的这三个参数其实是一个相对的大小。我们只要去比较 $J_{train}$ 和 $J_{cv}$ 的大小，然后根据我们判断出来的情况，决定是在现有的参数基础上往增加的方向还是减小的方向即可。

3.彩蛋。作者本人可见

d vs λ	同	异
目的	都要求一个合适的参数
输入	都是要进行比较的多个参数（不妨设k）
过程1	训练k个使得 $min\space J(\theta)$ 的θ	求λ时，θ的训练要用带有正则化项（惩罚项）的 $J_{\lambda}(\theta)$ ,而求d时，训练θ不用带惩罚项
中间输出	$\theta^{(k)}$
过程2	$min\space J_{cv}(\theta)$
最终输出	要求的参数d或者λ,并且记录对应的θ，便于计算 $J_{test}(\theta)$

	high bias	high variance
d	太小	太大
λ	太大	太小

所处状态	high bias	high variance
d	太小	太大
λ	太大	太小

如何解决	high bias	high variance
d	增大d	减小d
λ	减小λ	增大λ
m	无能无力	增加m

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

tjl_moby

关注关注

0
点赞

踩

0

收藏

觉得还不错? 一键收藏

0
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

模型欠拟合和过拟合解决办法

码灵薯的博客

03-14 6727

欠拟合（underfiting / high bias）训练误差和验证误差都很大，这种情况称为欠拟合。出现欠拟合的原因是模型尚未学习到数据的真实结构。因此，模拟在训练集和验证集上的性能都很差。解决办法做特征工程，添加跟多的特征项。如果欠拟合是由于特征项不够，没有足够的信息支持模型做判断。增加模型复杂度。如果模型太简单，不能够应对复杂的任务。可以使用更复杂的模型，减小正则化系...

Coursera Machine Learning 第六周编程week6 ex5Regularized Linear Regression and Bias/Variance编程全套满分题目+注释选做

sinat_39805237的博客

12-13 763

资源链接：http://download.csdn.net/download/sinat_39805237/10157407 lambda=0时 lambda=1时 lambda=100时改变lambda时error的变化最后的选做结果，恕愚钝，半天才解好，望批评指正。

参与评论您还未登录，请先登录后发表或查看评论

大白话解释模型产生过拟合的原因

Jinlong_Xu的博客

05-23 1万+

一、过拟合的概念？首先我们来解释一下过拟合的概念？过拟合就是训练出来的模型在训练集上表现很好，但是在测试集上表现较差的一种现象！下图给出例子：我们将上图第三个模型解释为出现了过拟合现象，过度的拟合了训练数据，而没有考虑到泛化能力。在训练集上的准确率和在开发集上的准确率画在一个图上如下：从图中我们能够看出，模型在训练集上表现很好，但是在交叉验证

如何申请Coursera课程助学金及获得证书

热门推荐

SilentSummer的博客

05-06 2万+

Coursera攻略。。。

吴恩达机器学习笔记（week6——）

u012084802的博客

06-01 769

http://ai-start.com/ml2014/html/week6.htmlWeek6十、应用机器学习的建议(Advice for Applying Machine Learning)10.1 决定下一步做什么10.2 评估一个假设10.3 模型选择和交叉验证集10.4 诊断偏差和方差10.5 正则化和偏差/方差10.6 学习曲线10.7 决定下一步做什么十一、机器学习系统的设计(Mach...

Machine Learning - Coursera 吴恩达机器学习教程 Week6 学习笔记（Advice for Applying Machine Learning）

zhang35的博客

02-07 1154

评估假设函数如果发现训练出的模型结果不好，一般会从以下方面找问题：扩充训练集减少特征集使用额外的特征使用多项式特征增减λ 测试集为了评估假设函数，一般会将数据集分为两部分：70%的训练集和30%的测试集。用训练集获得Theta，用测试集评估效果。测试集的误差计算方法：线性回归：分类：其中：验证集参考：一文看懂 AI 数据集：训练集、验证集、测试集（附：分割方法+交叉验证）验证集是用来调整超参数的，如果无需调整超参数，可以不使用验证集，只用训练+测试集。

Andrew Ng机器学习课程笔记--week6

marsggbo的博客

08-11 585

Advice for applying machine learning 本周主要学习如何提升算法效率，以及如何判断学习算法在什么时候表现的很糟糕和如何debug我们的学习算法。为了让学习算法表现更好，我们还会学习如何解决处理偏态数据（skewed data）。以下内容部分参考我爱公开课-Advice for applying machine learning一、内容概要 Evaluatin

coursera-machine-learning:

05-17

标题 "Coursera-Machine-Learning" 指的是Andrew Ng教授在Coursera平台上的经典机器学习课程。这门课程涵盖了广泛的机器学习概念、算法和技术，是许多初学者和专业人士入门机器学习的重要资源。描述提到的“编程作业...

coursera-machine-learning：Coursera的机器学习课程中的MATLAB作业

02-03

在“coursera-machine-learning-master”文件中，可能包含了各个单元的作业代码，包括数据加载、模型训练、结果评估等步骤。通过这些实例，你可以深入理解机器学习理论，并提高MATLAB编程技能。总之，MATLAB在机器...

coursera-machine-learning:在Coursera教授的Marchine学习课程的解决方案代码

05-05

在解压后的文件夹“coursera-machine-learning-master”中，你可以找到按课程章节划分的子文件夹，每个子文件夹包含了相应的练习和项目代码。代码通常由.m文件组成，这是MATLAB的脚本或函数文件。通过阅读和运行这些...

Coursera-ML-AndrewNg-master.zip

07-14

《Coursera-ML-AndrewNg-master.zip》这个压缩包文件包含了由吴恩达(Andrew Ng)教授在Coursera平台上的机器学习课程的核心内容。这门课程是人工智能（AI）领域的重要基石，特别是机器学习（ML）部分，涵盖了广泛的...

Coursera-ML-AndrewNg-Notes：吴恩达老师的机器学习课程个人笔记

02-04

这份"Coursera-ML-AndrewNg-Notes"笔记集合，是学习者们对吴恩达课程精华的总结，旨在帮助读者深入理解和掌握机器学习的基本概念、算法和应用。机器学习是人工智能的一个分支，通过让计算机从数据中自动学习规律，...

Coursera/py4inf/python data structure 笔记密歇根大学

tjl_moby的博客

09-26 1180

Coursera 上课程python data structure的笔记

Coursera ML笔记 -----week9-1 异常检测

tjl_moby的博客

04-29 921

异常检测

Coursera ML笔记 -----week6 -2 Machine Learning System Design

tjl_moby的博客

04-07 543

设计一个机器学习的系统

Coursera ML笔记 -----week9-2 推荐系统

tjl_moby的博客

04-30 528

推荐系统

Coursera ML笔记 -----week8-2 数据降维

tjl_moby的博客

04-28 516

数据降维

Coursera ML笔记 -----week5 Neural Network，Back Propagation

tjl_moby的博客

03-29 409

后向传播算法

coursera-ml-andrewng-notes-master.zip

最新发布

06-27

### 回答1： Coursera-ml-andrewng-notes-master.zip是一个包含Andrew Ng的机器学习课程笔记和代码的压缩包。这门课程是由斯坦福大学提供的计算机科学和人工智能实验室（CSAIL）的教授Andrew Ng教授开设的，旨在通过深入浅出的方式介绍机器学习的基础概念，包括监督学习、无监督学习、逻辑回归、神经网络等等。这个压缩包中的笔记和代码可以帮助机器学习初学者更好地理解和应用所学的知识。笔记中包含了课程中涉及到的各种公式、算法和概念的详细解释，同时也包括了编程作业的指导和解答。而代码部分包含了课程中使用的MATLAB代码，以及Python代码的实现。这个压缩包对机器学习爱好者和学生来说是一个非常有用的资源，能够让他们深入了解机器学习的基础，并掌握如何运用这些知识去解决实际问题。此外，这个压缩包还可以作为教师和讲师的教学资源，帮助他们更好地传授机器学习的知识和技能。 ### 回答2： coursera-ml-andrewng-notes-master.zip 是一个 Coursera Machine Learning 课程的笔记和教材的压缩包，由学生或者讲师编写。这个压缩包中包括了 Andrew Ng 教授在 Coursera 上发布的 Machine Learning 课程的全部讲义、练习题和答案等相关学习材料。 Machine Learning 课程是一个介绍机器学习的课程，它包括了许多重要的机器学习算法和理论，例如线性回归、神经网络、决策树、支持向量机等。这个课程的目标是让学生了解机器学习的方法，学习如何使用机器学习来解决实际问题，并最终构建自己的机器学习系统。这个压缩包中包含的所有学习材料都是免费的，每个人都可以从 Coursera 的网站上免费获取。通过学习这个课程，你将学习到机器学习的基础知识和核心算法，掌握机器学习的实际应用技巧，以及学会如何处理不同种类的数据和问题。总之，coursera-ml-andrewng-notes-master.zip 是一个非常有用的学习资源，它可以帮助人们更好地学习、理解和掌握机器学习的知识和技能。无论你是机器学习初学者还是资深的机器学习专家，它都将是一个重要的参考工具。 ### 回答3： coursera-ml-andrewng-notes-master.zip是一份具有高价值的文件，其中包含了Andrew Ng在Coursera上开授的机器学习课程的笔记。这份课程笔记可以帮助学习者更好地理解掌握机器学习技术和方法，提高在机器学习领域的实践能力。通过这份文件，学习者可以学习到机器学习的算法、原理和应用，其中包括线性回归、逻辑回归、神经网络、支持向量机、聚类、降维等多个内容。同时，这份笔记还提供了很多代码实现和模板，学习者可以通过这些实例来理解、运用和进一步深入研究机器学习技术。总的来说，coursera-ml-andrewng-notes-master.zip对于想要深入学习和掌握机器学习技术和方法的学习者来说是一份不可多得的资料，对于企业中从事机器学习相关工作的从业人员来说也是进行技能提升或者知识更新的重要资料。因此，对于机器学习领域的学习者和从业人员来说，学习并掌握coursera-ml-andrewng-notes-master.zip所提供的知识和技能是非常有价值的。