7.正则化

最新推荐文章于 2024-09-02 23:11:05 发布

Noobs_way

最新推荐文章于 2024-09-02 23:11:05 发布

阅读量106

点赞数

分类专栏：机器学习文章标签：机器学习深度学习 python

本文链接：https://blog.csdn.net/Noobs_way/article/details/126827188

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

7.1 过拟合问题

7.1.1 什么是过拟合问题？

什么是过拟合问题？

首先，什么是过拟合问题？
引用学术上的话来说，就是：

过拟合是指为了得到一致假设而使假设变得过度严格。

用更为抽象一些的话来进行评价，如下图所示，左边，中间和右边三者分别展示了什么是欠拟合，理想的拟合状态和过拟合。
在这里插入图片描述
同时这里需要引入几个概念，通常来说，欠拟合带来的是高偏倚度，也叫高偏差；过拟合带来的则是高方差。
过拟合除了上述这些问题，从模型的角度来讲也不是一个好的结果。引用吴恩达的话来说就是

如果我们的拟合函数是一个高阶多项式，虽然理论上它可以模拟任何数值，但是该模型对数据的要求量也很大。这使得我们很难去约束或者求解它。

另外，从应用的角度来讲，其定义大抵如下：

在这里插入图片描述

尽管我们的模型千方百计地去拟合已有的数据，甚至于达到了损失函数近似为0的程度。但是其泛化效果并不好，没有应用价值。

泛化是指将假设模型应用到实际中预测新数据的能力。

用我们先前讲过的逻辑回归举例说明的话，就是下图：
在这里插入图片描述

7.1.2 过拟合问题的解决方法

那么，如何解决过拟合的问题呢？
大致有两种理论思想

减少特征数量
1.1 手动剔除
1.2 模型选择算法(model selection algorithm)
正则化(regularization)

适用于各个特征重要性相似且较多的情况。在这种情况下，我们保留所有的特征，但是降低 $\theta_j$ 的值。

7.2 损失（代价）函数

7.2.1 一个小例子

首先仍然对比以下过拟合与正常拟合的情况，如下图所示：
在这里插入图片描述
如图所示，右边的过拟合情况尽管拟合效果更好，但是可以遇见的是其泛化性能不够理想。在此例中，对比正常拟合与过拟合的两种现象我们可以看出，两者的预测函数有着本质不同。后者相较于前者多了两个高阶项，这直接导致了两个模型的预测差异。
那么如何来解决这一问题呢？

从损失函数上下功夫

仍以上面的例子进行阐述。若想将上例中过拟合的情况调整为正常拟合而又不减少模型参数，可以从损失函数上下功夫。
我们原有的，力图使其最小化的损失函数为：
$\frac{1}{2m} \sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)})^2$
现在，我们将其做一些变更：
$\frac{1}{2m} \sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)})^2 + 1000 \theta_3^2 + 1000\theta_4^2$
变更后的损失函数仍然遵循最小化原则。但是通过令高次项特征的系数前面带上1000这样的大数，可以将 $\theta_3$ 和 $\theta_4$ 化为最小，这样使得整个模型受高次项影响较小，大大降低过拟合程度。

7.2.2 推广化

但是，我们日常处理的数据对我们来说是一个”黑箱子“,只有特征 $x^{(i)}$ 以及其对应的特征系数 $\theta^{(i)}$ ,根本难以判断哪个系数会是所谓的高次项。为了解决这一问题，我们采用以下修改损失函数的办法：
$J(\theta) = \frac{1}{2m} ( \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y)^2+\lambda \sum_{j=1}^m \theta_j^2 )$
其中 $\lambda$ 被称为正则化参数，它不能太大，过大的正则化参数会使得各个 $\theta$ 很小；它也不能过小，这样难以起到正则化效果，区分并降低高次项权重。
同时，我们只是惩罚 $\theta_j(j=1,2,,,n)$ 而没有惩罚 $\theta_0$ ，这是一个约定俗成的习惯。

7.3 线性回归的正则化

根据推广化的正则表达式，我们可以将梯度下降应用于线性回归中。根据上文，修改后的损失函数表达式为：
$J(\theta) = \frac{1}{2m} ( \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y)^2+\lambda \sum_{j=1}^m \theta_j^2 )$
对其应用梯度下降可得（注意，我们在正则化时只是惩罚 $\theta_1$ 到 $\theta_j$ ，没有改变 $\theta_0$ ，所以在下面进行区分）
$\theta_0 :=\theta_0- \alpha \frac{1}{m} \sum_{i=1}^m(h_{\theta}(x^{(i)})-y)x_0^{(i)}$
$\theta_j :=\theta_j- \alpha \frac{1}{m} \sum_{i=1}^m(h_{\theta}(x^{(i)})-y)x_j^{(i)} + \frac{\lambda}{m} \theta_j$
将下式改写为：
$\theta_j := (1-\frac{\lambda}{m}) \theta_j- \frac{1}{m} \sum_{i=1}^m(h_{\theta}(x^{(i)})-y)x_j^{(i)}$
通常来说 $1-\frac{\lambda}{m}$ 由于 $\lambda$ 较小，m较大，因此其该式子趋近于1，但是仍比1要小。因此相当于每次迭代，参数都会缩小一些。

7.4 Logistic回归的正则化

根据我们将线性回归的正则化过程我们可以得出，Logistic回归修改后的损失函数表达式为：
$J(\theta) = -\frac{1}{m} \sum_{i=1}^m y^{(i)} \log h_{\theta}(x^{(i)}) +(1-y) \log (1-h_{\theta}(x^{(i)})) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2$
和线性回归一样，修改后的损失函数旨在惩罚 $\theta_1,\theta_2...\theta_n$ 。
$\theta_0 :=\theta_0- \alpha \frac{1}{m} \sum_{i=1}^m(h_{\theta}(x^{(i)})-y)x_0^{(i)}$
接下来更新各参数的过程和线性回归表达式一样，唯一的区别在于此时模型不一样，对应的 $h_{\theta}(x)也不尽相同$
$\theta_j :=\theta_j- \alpha \frac{1}{m} \sum_{i=1}^m(h_{\theta}(x^{(i)})-y)x_j^{(i)} + \frac{\lambda}{m} \theta_j$

Noobs_way

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
7.正则化

什么是过拟合问题？首先，什么是过拟合问题？用更为抽象一些的话来进行评价，如下图所示，左边，中间和右边三者分别展示了什么是欠拟合，理想的拟合状态和过拟合。同时这里需要引入几个概念，通常来说，欠拟合带来的是，也叫；过拟合带来的则是高方差。过拟合除了上述这些问题，从模型的角度来讲也不是一个好的结果。引用吴恩达的话来说就是如果我们的拟合函数是一个高阶多项式，虽然理论上它可以模拟任何数值，但是该模型对数据的要求量也很大。这使得我们很难去约束或者求解它。
复制链接

扫一扫

专栏目录