机器学习（吴恩达）-5 过拟合问题及正则化

最新推荐文章于 2023-11-10 14:28:28 发布

音无八重

最新推荐文章于 2023-11-10 14:28:28 发布

阅读量414

点赞数

分类专栏：机器学习文章标签：机器学习逻辑回归过拟合

本文链接：https://blog.csdn.net/rhiney_97/article/details/105695602

版权

机器学习专栏收录该内容

7 篇文章 5 订阅

订阅专栏

1. 什么是过拟合？

（1）过拟合介绍

首先给出一个关于线性回归的例子：
已知某房子面积与房价的训练集数据，通过下图给出：
训练集数据图

①将假设函数设为
$h_{\theta}(x)=\theta_0+\theta_1x$
则训练集与假设函数的曲线拟合情况如下：
拟合曲线图1
此时的训练集数据与曲线的拟合情况非常差，这种情况下我们称为欠拟合（Unfitting）或高偏差（High bias）。

②将假设函数设为
$h_{\theta}(x)=\theta_0+\theta_1x+\theta_2x^2$
得到的训练集数据与曲线拟合情况如下：
拟合曲线图2
此时训练集数据与假设函数曲线的拟合情况非常好，可以说是用到了非常合适的假设函数。

③将假设函数设为
$h_{\theta}(x)=\theta_0+\theta_1x+\theta_2x^3+\theta_4x^4$
得到的训练集数据与曲线拟合情况：
拟合曲线图3
此时虽然拟合情况看上去不错，假设函数的曲线分别对应上了各训练集数据点，但是曲线的构成非常复杂，其中的参数过多，实际上并不是一个好的拟合曲线，这种情况便称之为过拟合（Overfitting）或高方差（High variance）。

过拟合的定义：当我们有较多的特征，且假设函数能够拟合的非常完美（ $J(x)\approx0$ ），但这个假设函数无法对新的数据进行泛化时（即无法对某一个新的数据预测出较为准确的结果），我们称这种情况为过拟合。

（可以认为，过拟合就是拟合曲线能够完美的拟合现有数据点，但若加入新数据点则仍旧无法拟合）

再给出一个关于逻辑回归中过拟合的例子：
已给出的数据点：
逻辑回归-数据点图

①假设函数设为：
$h_{\theta}(x)=g(\theta_0+\theta_1x_1+\theta_2x_2)$
逻辑回归-拟合图1
此时称之为欠拟合（Unfitting）或高偏差（High bias）。

②假设函数设为：
$h_{\theta}(x)=g(\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1^2+\theta_4x_2^2+\theta_5x_1x_2)$
逻辑回归-拟合图2
此时拟合情况良好。

③假设函数设为：
$h_{\theta}(x)=g(\theta_0+\theta_1x_1+\theta_2x_2^2+\theta_3x_1^2x_2+\theta_4x_1^2x_2^2+\theta_5x_1^2x_2^3...)$
逻辑回归-拟合图3
此时的情况称之为过拟合（Overfitting）或高方差（High variance）。

（2）解决过拟合可用的方法

首先，会发生过拟合的情况：当特征过多，训练集数据又较少时，较容易发生过拟合情况。

解决过拟合的方法有以下：
① 降低特征数量
——人为地选择保留哪些特征
——模型选择算法（可自动确定哪些特征被留下，哪些特征被舍去）
② 进行正则化
——保留所有的特征，但减少量级或参数θ的大小（对于有很多特征，且每个特征对于预测结果都有一定贡献的情况非常有用）

2. 正则化

（1）正则化介绍

首先给出个房子大小与房价之间关系的训练集例子：
训练集图1

如果令假设函数为 $h_{\theta}(x)=\theta_0+\theta_1x+\theta_2x^2$ ，那么我们可以看到曲线拟合情况：
训练集图2
此时给出的假设函数与训练集数据的拟合情况是非常合适的，也是我们所需要的。

但是如果我们的假设函数为 $h_{\theta}(x)=\theta_0+\theta_1x+\theta_2x^3+\theta_4x^4$ ，这种情况下给出的拟合情况为过拟合：
训练集图3
如果给出的假设函数导致了过拟合情况，我们该如何使用正则化将过拟合消除掉呢？

方法是将过拟合的假设函数所对应代价函数改进一下：
$min\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+1000*\theta_3^2+1000*\theta_4^2$
上面的公式中对比原先的代价函数，增加了 $1000*\theta_3^2+1000*\theta_4^2$ 项，这项中 $\theta_3$ 与 $\theta_4$ 的系数值都较高，目的是增加了 $\theta_3$ 和 $\theta_4$ 在代价函数计算中的比重，最终会导致 $\theta_3$ 与 $\theta_4$ 值变得非常小，因此假设函数中 $\theta_3$ 与 $\theta_4$ 的比重就较小（接近于0），得出的曲线更贴近 $h_{\theta}(x)=\theta_0+\theta_1x+\theta_2x^2$ 。

正则化方法的思想：减小 $\theta_1,\theta_2,...,\theta_n$ ，从而得到一个更小的参数值，更小的参数值会令假设函数更加得简单、平滑，也就更不容易出现过拟合的问题。

在上面的例子中，我们知道应该缩小 $\theta_3$ 与 $\theta_4$ 的值，但是在参数非常多的情况下，我们很难知道哪些特征与结果是强相关的，哪些特征与结果是弱相关的，因此我们无法挑选出一些参数进行减小，因此我们使用的方法是将所有的参数值都进行适当比例的缩小，将代价函数写成如下的样子：
$J(\theta)=\frac{1}{2m}[ \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda \sum_{i=1}^{m}\theta_j^2]$
通常θ₀不加入公式的第二项中；公式中的λ是用来控制方括号中两项的平衡关系（即“更好地去拟合训练集的目标（第一项）”与“将参数控制得更小的目标（第二项）”二者），经过正则化后得到的假设函数会更加的平滑、简单。

但是需要注意的一点是，如果λ的取值过大（如λ为10¹⁰），那么所有的参数θ都将无限的接近于0，此时假设函数 $h_\theta(x)=\theta_0$ ，假设函数变成了一条直线，显然也是不符合拟合情况的。因此，选取λ的取值也是需要注意的问题。

（2）正则化线性回归

正则化可应用在线性回归问题中，线性回归中对于参数θ的计算方法在之前的章节中讲过，目前学会的有两种：
①梯度下降算法（通过计算代价函数及其偏导值求出θ）
②使用正规方程计算θ

①梯度下降算法
首先给出代价函数的公式：
$J(\theta)=\frac{1}{2m}[ \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda \sum_{i=1}^{m}\theta_j^2]$
梯度下降算法的算法公式：
Repeat
{
$\theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}$
$\theta_j:=\theta_j-\alpha[\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j]\, \, \,(j=1,2,..,n)$
}

其中对于 $\theta_j$ 的等式，可简化为：
$\theta_j:=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
②正规方程
原本根据正规方程计算θ的公式如下：
$\theta=(X^TX)^{-1}X^Ty$

在对线性回归使用正则化后，我们得到的正规方程公式如下：
$\theta=(X^TX+\lambda \left[ \begin{matrix} 0 & & & & \\ & 1 & & &\\ & & 1 & &\\ & & &... &\\ & & & &1\\ \end{matrix} \right])^{-1}X^Ty$

（3）正则化逻辑回归

处理逻辑回归时我们主要使用的方法是使用梯度下降算法计算出合适的θ值，首先我们给出逻辑回归中的代价函数公式：
$J(\theta)=-[\frac{1}{m}\sum_{i=1}^{m}y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]$
梯度下降算法：
Repeat：
{
$\theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}$
$\theta_j:=\theta_j-\alpha[\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j]\, \, \,(j=1,2,..,n)$
}