《吴恩达机器学习》10 应用机器学习的建议

前言

前文讲了很多机器学习的方法,但是在实际应用中却有很多问题,或者想试着改进一个机器学习系统的性能,你应如何决定接下来应该选择哪条道路。这就是本章学习的重点——评估模型及算法技巧。

一、决定下一步做什么

有很多方法可以用于提升算法的性能及拟合问题,下面列出了几种方式

  • 尝试减少特征的数量
  • 尝试获得更多的特征
  • 尝试增加多项式特征
  • 尝试减少正则化程度λ
  • 尝试增加正则化程度λ

我们不应该随机选择上面的某种方法来改进我们的算法,而是运用一些机器学习诊断法来帮助我们知道上面哪些方法对我们的算法是有效的。下面就来讨论这几种方法

二、模型评估

模型评估是机器学习最基本的方式,我们常见的方式是把数据集分为训练集测试集,在训练集上训练模型然后再测试集上测试模型的准确程度。

1、评估假设

如下图的我们可以对数据画出拟合的图像看出我们的模型存在欠拟合的情况,但是对于多特征的数据我们很难直观的看出模型是否存在拟合问题。
在这里插入图片描述
通常的做法就是和上面讨论的一样,为了检验算法是否过拟合,我们将数据分成训练集和测试集,通常用 70%的数据作为训练集,用剩下 30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据, 通常我们要对数据进行“洗牌”, 然后再分成训练集和测试集。
测试集评估在通过训练集让我们的模型学习得出其参数后,对测试集运用该模型,我们有两种方式计算误差:
1.对于线性回归模型,我们利用测试集数据计算代价函数
2.对于逻辑回归模型,我们除了可以利用测试数据集来计算代价函数外:对于每一个测试集实例计算误分类的比率来得到我们的验证结果。
在这里插入图片描述

2、模型选择和交叉验证

假设我们要在 10 个不同次数的二项式模型之间进行选择:
在这里插入图片描述
显然越高次数的多项式模型越能够适应我们的训练数据集,但是适应训练数据集并不代表着能推广至一般情况,我们应该选择一个更能适应一般情况的模型。我们需要使用交叉验证集来帮助选择模型。即:使用 60%的数据作为训练集,使用 20%的数据作为交叉验证集,使用 20%的数据作为测试集
模型选择的方法为:

  • 使用训练集训练出 10 个模型
  • 用 10 个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)
  • 选取代价函数值最小的模型
  • 用步骤 3 中选出的模型对测试集计算得出推广误差(代价函数的值)

三、偏差和方差

1、定义

当你运行一个学习算法时,如果这个算法的表现不理想,那么多半是出现两种情况:要么是偏差比较大,要么是方差比较大。如欠拟合也就是高偏差,下图左示,过拟合也就是高方差,下图右示。
在这里插入图片描述
如下示,我们绘制出多项式随着多项式d的增大时,验证集和测试集的函数曲线。可以得出这样的规律

  • 训练集误差和交叉验证集误差近似时:高偏差/欠拟合
  • 交叉验证集误差远大于训练集误差时: 高方差/过拟合

在这里插入图片描述

2、正则化

我们在训练时也会加入正则化的参数来防止过拟合的情况发生,那么λ参数的大小和模型的偏差、方差有什么关系呢?
在这里插入图片描述
选择λ的方法为:

  1. 使用训练集训练出 12 个不同程度正则化的模型
  2. 用 12 个模型分别对交叉验证集计算的出交叉验证误差
  3. 选择得出交叉验证误差最小的模型
  4. 运用步骤 3 中选出模型对测试集计算得出推广误差,我们也可以同时将训练集和交叉验证集模型的代价函数误差与 λ 的值绘制在一张图表上

在这里插入图片描述

由上图我们可以得到规律

  • 当 λ 较小时,训练集误差较小而交叉验证集误差较大:过拟合/高方差
  • 随着 λ 的增加,训练集误差不断增加,而交叉验证集误差则是先减小后增加:欠拟合/高偏差
3、学习曲线

学习曲线是将训练集误差和交叉验证集误差作为训练集实例数量的函数绘制的图表。它是学习算法的一个很好的合理检验(sanity check)。如下示我们绘制学习曲线的图形函数
在这里插入图片描述
由上图我们可以得到规律

  • 当训练集很小时,验证集和训练集的偏差很大:过拟合/高方差
  • 当测试集很大时,验证集和测试集的偏差不大:欠拟合/高偏差

由上面可以看出在这种模型中,当出现高偏差时,增加训练数据是没什么用的。必须用别的方式来改善我们的模型

四、决定下一步做什么(revisited)

我们已经介绍了怎样评价一个学习算法,我们讨论了模型选择问题,偏差和方差的问题。那么这些诊断法则怎样帮助我们判断,哪些方法可能有助于改进学习算法的效果,而哪些可能是徒劳的呢?
让我们再次回到最开始的例子,在那里寻找答案,让我们来看一看我们在什么情况下应该怎样选择:

  1. 获得更多的训练实例——解决高方差(过拟合)
  2. 尝试减少特征的数量——解决高方差(过拟合)
  3. 尝试获得更多的特征——解决高偏差(欠拟合)
  4. 尝试增加多项式特征——解决高偏差(欠拟合)
  5. 尝试减少正则化程度 λ——解决高偏差(欠拟合)
  6. 尝试增加正则化程度 λ——解决高方差(过拟合)

总结

以上就是《吴恩达机器学习》系列视频 应用机器学习的建议 的内容笔记,以便后续学习和查阅。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值