吴恩达机器学习day7（机器学习的进一步发展）

最新推荐文章于 2024-07-04 23:20:24 发布

张张同学！

最新推荐文章于 2024-07-04 23:20:24 发布

阅读量527

点赞数

分类专栏：吴恩达机器学习笔记文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_46126118/article/details/107707357

版权

吴恩达机器学习笔记专栏收录该内容

15 篇文章 2 订阅

订阅专栏

机器学习的建议

一.决定下一步做什么
二.评估一个假设
- 【1】如何判断一个假设函数是过拟合的呢？
- - 1.方法一
  - 2.方法二
三.模型选择和交叉验证集
四.诊断偏差和方差
五.正则化和偏差/方差
六.学习曲线
- - 【1】高偏差：
  - 【2】高方差：
七.决定下一步做什么

一.决定下一步做什么

【1】.获得更多的训练样本

注意：通过获得更多的数据，有时候有效，但有时候获得更多的训练数据实际上并没有作用。
通常是有效的，但代价较大，下面的方法也可能有效，可考虑先采用下面的几种方法。

【2】尝试减少特征的数量

【3】尝试获得更多的特征

【4】尝试增加多项式特征

比如 $x_1$ 的平方， $x_2$ 的平方， $x_1,x_2$ 的乘积

【5】尝试减少正则化程度 $\lambda$

【6】.尝试增加正则化程度 $\lambda$

二.评估一个假设

如何避免过拟合和欠拟合
在这里插入图片描述
选择参量来使训练误差最小化，仅仅是因为这个假设具有很小的训练误差，并不能说明它就一定是一个好的假设函数。可能是一个过拟合假设函数的例子

【1】如何判断一个假设函数是过拟合的呢？

1.方法一

我们可以对假设函数 $h (x)$ 进行画图，然后观察图形趋势，但对于特征变量不止一个的这种一般情况，还有像有很多特征变量的问题，想要通过画出假设函数来进行观察，就会变得很难甚至是不可能实现。

2.方法二

为了检验算法是否过拟合，我们将数据分成训练集和测试集，通常用70%的数据作为训练集，用剩下30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据，通常我们要对数据进行“洗牌”，然后再分成训练集和测试集。

在这里插入图片描述
测试集评估在通过训练集让我们的模型学习得出其参数后，对测试集运用该模型，我们有两种方式计算误差：

对于线性回归模型，我们利用测试集数据计算代价函数 $J$

$J_{test}\left( a\right) =\dfrac{1}{2m_{test}}\sum ^{mtest}_{i=1}\left( h_{0}\left( X_{test}^{\left( i\right) }\right) -y_{test}^{\left( i\right) }\right) ^{2}$
对于逻辑回归模型，我们除了可以利用测试数据集来计算代价函数外：
$J_{test}{(\theta)} = -\frac{1}{{m}{test}}\sum\limits{i=1}^{m_{test}}\log{h_{\theta}(x^{(i)}{test})}+(1-{y^{(i)}{test}})\log{h_{\theta}(x^{(i)}_{test})}$

误分类的比率，对于每一个测试集样本，计算：（）在这里插入图片描述
$\ error=\dfrac{1}{2m_{test}}\sum ^{mtest}_{i=1}\left( h_{0}\left( X_{test}^{\left( i\right) }\right) -y_{test}^{\left( i\right) }\right) ^{2}$
然后对计算结果求平均

三.模型选择和交叉验证集

假设我们要在10个不同次数的二项式模型之间进行选择：

在这里插入图片描述

显然越高次数的多项式模型越能够适应我们的训练数据集，但是适应训练数据集并不代表着能推广至一般情况，我们应该选择一个更能适应一般情况的模型。我们需要使用交叉验证集来帮助选择模型。
即：使用60%的数据作为训练集，使用 20%的数据作为交叉验证集，使用20%的数据作为测试集
在这里插入图片描述
模型选择的方法为：

使用训练集训练出10个模型

用10个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）

选取代价函数值最小的模型

用步骤3中选出的模型对测试集计算得出推广误差（代价函数的值
Train/validation/test error

Training error:

$J_{train}(\theta) = \frac{1}{2m}\sum\limits{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$

Cross Validation error:

$J_{cv}(\theta) = \frac{1}{2m_{cv}}\sum\limits{i=1}^{m}(h_{\theta}(x^{(i)}{cv})-y^{(i)}{cv})^2$

Test error:
$J_{test}(\theta)=\frac{1}{2m_{test}}\sum\limits{i=1}^{m_{test}}(h_{\theta}(x^{(i)}{cv})-y^{(i)}{cv})^2$

在这里插入图片描述

四.诊断偏差和方差

算法的表现不理想，出现两种情况：要么是偏差比较大，要么是方差比较大
出现的情况要么是欠拟合，要么是过拟合问题
在这里插入图片描述
我们通常会通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表上来帮助分析

Bias/variance

Training error: $J_{train}(\theta) = \frac{1}{2m}\sum\limits{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$

Cross Validation error: $J_{cv}(\theta) = \frac{1}{2m_{cv}}\sum\limits{i=1}^{m}(h_{\theta}(x^{(i)}{cv})-y^{(i)}{cv})^2$
在这里插入图片描述

对于训练集，当 $d$ 较小时，模型拟合程度更低，误差较大；随着 $d$ 的增长，拟合程度提高，误差减小。

对于交叉验证集，当 $d$ 较小时，模型拟合程度低，误差较大；但是随着 $d$ 的增长，误差呈现先减小后增大的趋势，转折点是我们的模型开始过拟合训练数据集的时候。

如果我们的交叉验证集误差较大，我们如何判断是方差还是偏差呢？根据上面的图表，我们知道:
在这里插入图片描述
训练集误差和交叉验证集误差近似时：偏差/欠拟合

交叉验证集误差远大于训练集误差时：方差/过拟合

五.正则化和偏差/方差

正则化的程度太高或太小了，即在选择λ的值时也需要思考与刚才选择多项式模型次数类似的问题。
在这里插入图片描述
我们选择一系列的想要测试的 $\lambda$ 值，通常是 0-10之间的呈现2倍关系的值（如： $0, 0.01, 0.02, 0.04, 0.08, 0.15, 0.32, 0.64, 1.28, 2.56, 5.12, 10$ 共12个）。我们同样把数据分为训练集、交叉验证集和测试集。

选择 $\lambda$ 的方法为：