Datawhale 7月学习——李弘毅深度学习：误差与梯度下降

最新推荐文章于 2022-11-14 21:51:54 发布

SheltonXiao

最新推荐文章于 2022-11-14 21:51:54 发布

阅读量277

点赞数

分类专栏：学习

本文链接：https://blog.csdn.net/qq_40990057/article/details/118801109

版权

学习专栏收录该内容

59 篇文章 17 订阅

订阅专栏

前情回顾

1 误差

1.1 误差的来源

误差Error的来源有两种，一种是偏差Bias、一种是方差Variance。
在这里插入图片描述

Error反映的是整个模型的准确度，Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。

假设我们要预测的点是靶心，下面这张图很好地展示了方差与偏差的关系。
在这里插入图片描述

1.2 误差的估测

从统计学的角度，偏差意味模型结果的期望与真实值的差距。
在这里插入图片描述

方差则各个模型结果间的差距。当数据点增多时，模型的方差会下降。
在这里插入图片描述

1.3 模型的误差

1.3.1 方差

简单的模型方差较小，复杂的模型方差较大。
在这里插入图片描述

一次模型的方差就比较小的，也就是是比较集中，离散程度较小。而5次模型的方差就比较大，同理散布比较广，离散程度较大。
所以用比较简单的模型，方差是比较小的（就像射击的时候每次的时候，每次射击的设置都集中在一个比较小的区域内）。如果用了复杂的模型，方差就很大，散布比较开。
这也是因为简单的模型受到不同训练集的影响是比较小的

1.3.2 偏差

简单的模型偏差较大，复杂的模型偏差较小。
在这里插入图片描述
如果想要知道不同模型间的偏差，先假设 $\hat f$ 是图中的黑线。则对不同的模型，可以获得其结果如下（红线），尽管每次结果都不同，可以取平均（蓝线），这时会发现复杂模型的整体偏差较小。

1.3.3 偏差VS方差

如下图显示，我们在实际过程中观察到的其实是Error，它是由bias和variance组成的。

在模型复杂程度提升的过程中，偏差会上升，方差会减小，但总的误差会有一个较小的点。而我们想要找到的最佳模型，应该就是取得这个较小点的模型。
在这里插入图片描述

1.4 减小误差的方法

1.4.1 判断误差的来源

一般有几个小tips：

如果没有很好的训练数据集，就是偏差过大，也就是欠拟合；
如果有很好的训练数据集，即在训练集上得到很小的错误，但在测试集上得到大的错误，这意味着模型可能是方差比较大，就是过拟合。

1.4.2 解决方法

针对欠拟合的情形：

应该重新设计模型。因为之前的函数集里面可能根本没有包含 $f^*$ 可以：
将更多的函数加进去，比如考虑高度重量，或者HP值等等。或者考虑更多次幂、更复杂的模型。如果此时强行再收集更多的data去训练，这是没有什么帮助的，因为设计的函数集本身就不好，再找更多的训练集也不会更好。

针对过拟合的情形：
应想办法加入或者采集更多的数据，或者通过数据增广的方式，来增加数据。
在这里插入图片描述

但是很多时候不一定能做到收集更多的data。可以针对对问题的理解对数据集做调整。比如识别手写数字的时候，偏转角度的数据集不够，那就将正常的数据集左转15度，右转15度，类似这样的处理。

1.4.3 模型选择

不要只在单一数据集上来评价模型的误差，因为误差存在一定的随机性。

因此，应该考虑交叉验证的方法，即分为训练集、验证集、测试集。
在这里插入图片描述
特别是N折交叉验证

N折交叉验证，是指将训练集随机分为N份，然后训练n个模型，使用n个不同的验证集，看不同模型的训练效果。这样可以一定程度的减小单一数据集带来的随机性。

2 梯度下降法

2.1 梯度下降法

梯度下降法在回归中已有提及，李宏毅此处有一个很形象的讲解ppt页面
在这里插入图片描述
梯度下降法也存在一些问题

需要设定合适的学习率，下图可以直观地说明这一点。

上图体现了不同学习率下的学习效果。当学习率太高时，可能出现振荡，而无法学得结果；而学习率太低时，又学得很慢；中间有一个平衡点。

上图左边黑色为损失函数的曲线，假设从左边最高点开始，如果学习率调整的刚刚好，比如红色的线，就能顺利找到最低点。如果学习率调整的太小，比如蓝色的线，就会走的太慢，虽然这种情况给足够多的时间也可以找到最低点，实际情况可能会等不及出结果。如果学习率调整的有点大，比如绿色的线，就会在上面震荡，走不下去，永远无法到达最低点。还有可能非常大，比如黄色的线，直接就飞出去了，更新参数的时候只会发现损失函数越更新越大。
虽然这样的可视化可以很直观观察，但可视化也只是能在参数是一维或者二维的时候进行，更高维的情况已经无法可视化了。
解决方法就是上图右边的方案，将参数改变对损失函数的影响进行可视化。比如学习率太小（蓝色的线），损失函数下降的非常慢；学习率太大（绿色的线），损失函数下降很快，但马上就卡住不下降了；学习率特别大（黄色的线），损失函数就飞出去了；红色的就是差不多刚好，可以得到一个好的结果。

容易陷入局部极值
梯度下降法还有可能卡在不是极值，但微分值是0的地方；还有可能实际中只是当微分值小于某一个数值就停下来了，但这里只是比较平缓，并不是极值点。

2.2 梯度下降法的改进方法

2.2.1 自适应学习率

所以就有自适应学习率的一些方法：

举一个简单的思想：随着次数的增加，通过一些因子来减少学习率

通常刚开始，初始点会距离最低点比较远，所以使用大一点的学习率
update好几次参数之后呢，比较靠近最低点了，此时减少学习率
比如 $\eta^t =\frac{\eta^t}{\sqrt{t+1}}$ ， $t$ 是次数。随着次数的增加， $\eta^t$ 减小

学习率不能是一个值通用所有特征，不同的参数需要不同的学习率