【吴恩达机器学习笔记】6应用机器学习的建议、机器学习系统的设计

最新推荐文章于 2022-10-02 16:41:33 发布

原创最新推荐文章于 2022-10-02 16:41:33 发布 · 218 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

AI 同时被 2 个专栏收录

64 篇文章

订阅专栏

Machine Learning

12 篇文章

订阅专栏

本文深入探讨了机器学习中的关键步骤，包括如何决定下一个优化方向、评估假设函数、处理过拟合与欠拟合。通过训练集和测试集划分，以及交叉验证集的应用，来诊断模型的偏差和方差。介绍了正则化在调整偏差和方差中的作用，并展示了学习曲线在识别问题类型中的价值。此外，还讨论了在实际项目中如何优先处理特征选择和数据收集，以及误差分析和适合偏斜类别问题的评价指标。

10应用机器学习的建议(Advice for Applying Machine Learning)

10.1 决定下一步做什么（Deciding What to Try Next ）

本章重点关注的问题是假如开发一个机器学习系统，或者想试着改进一个机器学习系统的性能，应如何决定接下来应该选择哪条道路？

改进算法性能的方法：

获得更多的训练样本——通常是有效的，但代价较大，下面的方法也可能有效，可考虑先采用下面的几种方法。
尝试减少特征的数量
尝试获得更多的特征
尝试增加多项式特征
尝试减少正则化程度 $\lambda$
尝试增加正则化程度 $\lambda$

之后介绍如何评估机器学习算法的性能，也被称为"机器学习诊断法"。“诊断法”的意思是：这是一种测试法，通过执行这种测试能够深入了解某种算法到底是否有用。

10.2 评估一个假设（Evaluating a Hypothesis）

具有很小的训练误差并不能说明假设函数的正确性，可能会存在过拟合。如何判断一个假设函数是过拟合的呢？对需要一种方法来评估假设函数过拟合检验。

将数据分成训练集和测试集，通常用70%的数据作为训练集，用剩下30%的数据作为测试集。训练集和测试集均要含有各种类型的数据，要对数据进行“洗牌”，然后再分成训练集和测试集。

测试集评估在通过训练集让模型学习得出其参数后，对测试集运用该模型，有两种方式计算误差：

对于线性回归模型，利用测试集数据计算代价函数 $J$
对于逻辑回归模型，除了可以利用测试数据集来计算代价函数外： $J_{test}{(\theta)} = -\frac{1}{{m}_{test}}\sum_{i=1}^{m_{test}}\log{h_{\theta}(x^{(i)}_{test})}+(1-{y^{(i)}_{test}})\log{h_{\theta}(x^{(i)}_{test})}$
还可以使用误分类的比率，对于每一个测试集样本，计算下式，然后对计算结果求平均。

在这里插入图片描述

10.3 模型选择和交叉验证集（Model Selection and Train/Validation/Test Sets ）

假设要在10个不同次数的二项式模型之间进行选择，显然越高次数的多项式模型越能够适应训练数据集，但并不代表能推广至一般情况，应该选择一个更能适应一般情况的模型。需要使用交叉验证集来帮助选择模型。

即：使用60%的数据作为训练集，使用 20%的数据作为交叉验证集，使用20%的数据作为测试集

模型选择的方法为：

使用训练集训练出10个模型
用10个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）
选取代价函数值最小的模型
用步骤3中选出的模型对测试集计算得出推广误差（代价函数的值）

Training error:

$J_{train}(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$

Cross Validation error:

$J_{cv}(\theta) = \frac{1}{2m_{cv}}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}_{cv})-y^{(i)}_{cv})^2$

Test error:

$J_{test}(\theta)=\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}(h_{\theta}(x^{(i)}_{cv})-y^{(i)}_{cv})^2$

10.4 诊断偏差和方差（Diagnosing Bias vs. Variance）

如果算法表现不理想，多半是出现两种情况：要么是偏差比较大（欠拟合），要么是方差比较大（过拟合）。如果交叉验证集误差较大，如何判断是方差还是偏差呢？
在这里插入图片描述
训练集误差和交叉验证集误差近似时：偏差/欠拟合

交叉验证集误差远大于训练集误差时：方差/过拟合

10.5 正则化和偏差/方差（Regularization and Bias/Varianc）

使用正则化方法可以防止过拟合。在选择λ的值时也需要思考是否正则化程度太高或太低。

选择 $\lambda$ 的方法为：

使用训练集训练出12个不同程度正则化的模型
用12个模型分别对交叉验证集计算的出交叉验证误差
选择得出交叉验证误差最小的模型
运用步骤3中选出模型对测试集计算得出推广误差，也可以同时将训练集和交叉验证集模型的代价函数误差与λ的值绘制在一张图表上：

在这里插入图片描述
• 当 $\lambda$ 较小时，训练集误差较小（过拟合）而交叉验证集误差较大

• 随着 $\lambda$ 的增加，训练集误差不断增加（欠拟合），而交叉验证集误差则是先减小后增加

10.6 学习曲线（Learning Curves ）

使用学习曲线可以来判断某一学习算法是否处于偏差、方差问题。学习曲线是学习算法的一个很好的合理检验（sanity check）。学习曲线是将训练集误差和交叉验证集误差作为训练集样本数量（ $m$ ）的函数绘制的图表。

如何利用学习曲线识别高方差/过拟合：假设我们使用一个非常高次的多项式模型，并且正则化非常小，当交叉验证集误差远大于训练集误差时，往训练集增加更多数据可以提高模型的效果。
在这里插入图片描述
在高偏差/欠拟合的情况下，增加数据到训练集不一定有帮助。在高方差/过拟合的情况下，增加更多数据到训练集可能可以提高算法效果。