【DadaWhale-李宏毅深度学习】Task03误差和梯度下降

最新推荐文章于 2024-08-25 09:53:04 发布

LucyFang2020

最新推荐文章于 2024-08-25 09:53:04 发布

阅读量158

点赞数

分类专栏：笔记文章标签：深度学习

本文链接：https://blog.csdn.net/LucyLuo2020/article/details/118751785

版权

笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文深入探讨了误差的来源，解析了偏差和方差在模型选择中的作用，指出偏差大导致欠拟合，方差大导致过拟合。介绍了交叉验证和N-折交叉验证在模型评估中的应用。此外，详细阐述了梯度下降法，包括学习速率的调整和Adagrad算法，讨论了特征缩放的重要性。最后，总结了关键知识点，如偏差与方差的区别、模型优化策略等。

摘要由CSDN通过智能技术生成

参考链接：https://github.com/datawhalechina/leeml-notes

第一部分误差

一、误差的来源

在这里插入图片描述

从上图可知, 均值误差（Average Error）随着模型复杂增加呈指数上升趋势。更复杂的模型并不能给测试集带来更好的效果，而这些误差的主要有两个来源，分别是偏差（bias）和方差（variance）。

二、偏差和方差

在这里插入图片描述
简单模型（左边）是偏差比较大造成的误差，这种情况叫做欠拟合，而复杂模型（右边）是方差过大造成的误差，这种情况叫做过拟合。

2.1 偏差

一次模型的偏差比较大，而复杂的多次模型，偏差就比较小。

直观的解释：简单的模型函数集的空间比较小，所以可能空间里面就没有包含靶心，肯定射不中。而复杂的模型函数集的空间比较大，可能就包含的靶心，只是没有办法找到确切的靶心在哪，但足够多的，就可能得到真正的靶心。

2.2 方差

一次模型的方差比较小，比较集中，离散程度较小。而多次模型的方差就比较大，散布比较广，离散程度较大。

所以用比较简单的模型，方差是比较小的（就像射击的时候每次的时候，每次射击的设置都集中在一个比较小的区域内）。如果用了复杂的模型，方差就很大，散布比较开。这也是因为简单的模型受到不同训练集的影响是比较小的。

三、方差偏差的判断

3.1偏差大-欠拟合

此时应该重新设计模型。因为之前的函数集里面可能根本没有包含目标。可以将更多的函数加进去，比如考虑高度重量，或者HP值等等。或者考虑更多次幂、更复杂的模型。如果此时强行再收集更多的数据去训练，这是没有什么帮助的，因为设计的函数集本身就不好，再找更多的训练集也不会更好。

3.2方差大-过拟合

简单粗暴的方法：增加更多的数据。
在这里插入图片描述

但是很多时候不一定能做到收集更多的数据。可以针对对问题的理解对数据集做调整。比如识别手写数字的时候，偏转角度的数据集不够，那就将正常的数据集左转15度，右转15度，类似这样的处理。

四、模型选择

4.1交叉验证

在这里插入图片描述
图中public的测试集是已有的，private是没有的，不知道的。交叉验证就是将训练集再分为两部分，一部分作为训练集，一部分作为验证集。用训练集训练模型，然后再验证集上比较，确实出最好的模型之后（比如模型3），再用全部的训练集训练模型3，然后再用public的测试集进行测试，此时一般得到的错误都是大一些的。不过此时会比较想再回去调一下参数，调整模型，让在public的测试集上更好，但不太推荐这样。

4.2 N-折交叉验证

在这里插入图片描述
将训练集分成N份，比如分成3份。在三份中训练结果Average错误是模型1最好，再用全部训练集训练模型1。

第二部分梯度下降

一、回顾: 梯度下降法

在回归问题的第三步中，需要解决下面的最优化问题：

$\theta^∗= \underset{ \theta }{\operatorname{arg\ min}} L(\theta) \tag1$

$L$ :lossfunction（损失函数）
$\theta$ :parameters（参数）

这里的parameters是复数，即 $\theta$ 指代一堆参数。为了让损失函数越小越好，可以用梯度下降法来找一组参数 $\theta$ 解决：
假设 $\theta$ 有里面有两个参数 $\theta_1, \theta_2$
随机选取初始值
$\theta^0 = \begin{bmatrix} \theta_1^0 \\ \theta_2^0 \end{bmatrix} \tag2$
如下图所示：
在这里插入图片描述
然后分别计算初始点处，两个参数对 $L$ 的偏微分，然后 $\theta^0$ 减掉 $\eta$ 乘上偏微分的值，得到一组新的参数。同理反复进行这样的计算。黄色部分为简洁的写法， $\triangledown L(\theta)$ 即为梯度。

$\eta$ 叫做Learning rates（学习速率）

在这里插入图片描述
上图举例将梯度下降法的计算过程进行可视化。

二、调整学习速率

2.1小心翼翼调整学习率

在这里插入图片描述
上图左边黑色为损失函数的曲线，假设从左边最高点开始，如果学习率调整的刚刚好，比如红色的线，就能顺利找到最低点。其他的线都有出入。虽然这样的可视化可以很直观观察，但可视化也只是能在参数是一维或者二维的时候进行，更高维的情况已经无法可视化了。
解决方案参照右图，将参数改变对损失函数的影响进行可视化。比如学习率太小（蓝色的线），损失函数下降的非常慢；学习率太大（绿色的线），损失函数下降很快，但马上就卡住不下降了；学习率特别大（黄色的线），损失函数就飞出去了；红色的就是差不多刚好，可以得到一个好的结果。

2.2自适应学习率

举一个简单的思想：随着次数的增加，通过一些因子来减少学习率

通常刚开始，初始点会距离最低点比较远，所以使用大一点的学习率
update好几次参数之后呢，比较靠近最低点了，此时减少学习率
比如 $\eta^t =\frac{\eta^t}{\sqrt{t+1}}$ ， $t$ 是次数。随着次数的增加， $\eta^t$ 减小

对于学习率：不同的参数需要不同的学习率。

2.3 Adagrad 算法

2.3.1 Adagrad 是什么？

Adagrad是解决不同参数使用不同的更新速率的问题。Adagrad自适应地为各个参数分配不同学习率的算法。
其公式如下：
$w^{t+1} \leftarrow w^t -\frac{η^t}{\sigma^t}g^t \tag1$
$g^t =\frac{\partial L(\theta^t)}{\partial w} \tag2$

$\sigma^t$ :之前参数的所有微分的均方根，对于每个参数都是不一样的。

2.3.2 Adagrad举例

下图是一个参数的更新过程

在这里插入图片描述
将 Adagrad 的式子进行化简：

在这里插入图片描述

2.3.3 Adagrad 存在的矛盾？

在这里插入图片描述
在 Adagrad 中，当梯度越大的时候，步伐应该越大，但下面分母又导致当梯度越大的时候，步伐会越小。

下图是一个直观的解释：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5xtY94n5-1626329830253)(res/chapter6-7.png)]

下面给一个正式的解释：

在这里插入图片描述

比如初始点在 $x_0$ ，最低点为 $−\frac{b}{2a}$ ，最佳的步伐就是 $x 0$ 到最低点之间的距离 $\left | x_0+\frac{b}{2a} \right |$ ，也可以写成 $\left | \frac{2ax_0+b}{2a} \right |$ 。而刚好 $2ax_0+b|$ 就是方程绝对值在 $x_0$ 这一点的微分。

这样可以认为如果算出来的微分越大，则距离最低点越远。而且最好的步伐和微分的大小成正比。所以如果踏出去的步伐和微分成正比，它可能是比较好的。

结论1-1：梯度越大，跟最低点的距离就越远（这个结论在多个参数的时候不一定成立）。

2.3.4 多参数下结论不一定成立

对比不同的参数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OKhqG4TK-1626329830255)(res/chapter6-9.png)]
上图左边是两个参数的损失函数，颜色代表损失函数的值。如果只考虑参数 $w_1$ ，就像图中蓝色的线，得到右边上图结果；如果只考虑参数 $w_2$ ，就像图中绿色的线，得到右边下图的结果。确实对于 $a$ 和 $b$ ，结论1-1是成立的，同理 $c$ 和 $b$ 也成立。但是如果对比 $a$ 和 $c$ ，就不成立， $c$ 比 $a$ 大，但 $c$ 距离最低点是比较近的。

所以结论1-1是在没有考虑跨参数对比的情况下，才能成立。

2.3.5 Adagrad 进一步的解释

再回到之前的 Adagrad

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wdu8ThgM-1626329830258)(res/chapter6-11.png)]
对于 $\sqrt{\sum_{i=0}^t(g^i)^2}$ ，是希望在尽可能不增加过多运算的情况下模拟二次微分。（如果计算二次微分，在实际情况中可能会增加很多的时间消耗）。

三、随机梯度下降法

随机梯度下降法比梯度下降更快。损失函数不需要处理训练集所有的数据，只需要计算某一个例子的损失函数Ln，就可以赶紧更新梯度。
对比如下：
在这里插入图片描述
常规梯度下降法走一步要处理到所有二十个例子，但随机算法此时已经走了二十步（每处理一个例子就更新）。

四、特征缩放

比如有个函数：
$y=b+w_1x_1+w_2x_2 \tag{3}$
两个输入的分布的范围很不一样，建议把他们的范围缩放，使得不同输入的范围是一样的。
在这里插入图片描述

五、总结

通过本节的学习，我掌握了以下知识点：

1.偏差与方差的区别
2.如何调整偏差和方差
3.通过交叉验证检验模型的好与坏
4.梯度下降与随机梯度下降的实现
5.Adagrad 算法的基本思路
6.特征缩放的实现

LucyFang2020

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【DadaWhale-李宏毅深度学习】Task03误差和梯度下降

参考链接：https://github.com/datawhalechina/leeml-notes文章目录一、误差的来源一、误差的来源从上图可知, Average\ ErrorAverage Error 随着模型复杂增加呈指数上升趋势。更复杂的模型并不能给测试集带来更好的效果，而这些 ErrorError 的主要有两个来源，分别是 biasbias 和 variancevariance 。然而 biasbias 和 variancevariance 是什么？可以查看机器学习中的Bias(偏差
复制链接

扫一扫