机器学习笔记三--误差从哪来&梯度下降

最新推荐文章于 2023-01-11 15:26:47 发布

I_AM_jm

最新推荐文章于 2023-01-11 15:26:47 发布

阅读量289

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/I_AM_jm/article/details/118757739

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

错误的来源

误差和偏差

估测

我们训练的模型其实是一个估测的结果，预估的结果。
在这里插入图片描述
就像我们打靶一样，真实值是靶心，我们投的位置是我们的训练好的模型预估的结果

偏差的计算

如果我们要估算一个变量的平均值和方差，我们估算出来的平均值和真实的平均值是不一样的。但是如果我们利用样本平均值再求期望的话，这个值会接近真实平均值，那么这样的估计叫无偏估计。
在这里插入图片描述

但这个每次的估计虽然会接近真实平均值，但始终又和真实平均值是有误差的。而这个误差就可以用方差variance来表示，variance的值和我们的样本数量密切相关。如下图中的N，越小越离散。
在这里插入图片描述

估算方差

在这里插入图片描述

为什么会有很多模型？

因为不同数据的数据分布不一样，模型最后出来的那个函数就不一样
在这里插入图片描述

偏差过大会造成欠拟合，方差过大会造成过拟合。

欠拟合的解决方法

这个时候应该重新设计模型，可以增加训练数据的维度，也可以增加样本数量。

过拟合的解决方法

简单粗暴的解决方法，增加样本数量

模型选择

交叉验证

将训练集分成两部分，一部分作为训练集，一部分作为验证集。用训练集训练模型，然后再验证集上进行比较，选出一个最好的模型后，再用全部的训练集训练。
在这里插入图片描述

N折交叉验证

将训练集分成n份。
在这里插入图片描述

梯度下降

调整梯度下降的方法

1.改变学习率

在这里插入图片描述
如上图，如果学习率调整比较小的话，可能会跑的很慢，学习率调整的很大的话，可能无法拟合。可以看到手动调学习率会很麻烦，而且不一定会调的准确。

那么有没有什么方法可以很好的调整学习率呢？
视频中提出了一种
刚开始的时候用比较大的学习率，然后经过几次学习后，把学习率变小，这样讲就可以有助于收敛。如下图公式，可以随着训练次数，学习率逐步减小。
在这里插入图片描述

Adagrad

这个方法是让每一个参数除于前面迭代导数的均方根值，如下图。
在这里插入图片描述
每次的学习率都和前面的梯度有关。

Adagrad 存在的矛盾

一般来说，梯度越大，那么速度会快一点，但是Adagrad不是这样，
在这里插入图片描述

对比这两个函数，可以发现，只有一次函数的时候，才和步长成正相关，但是二次函数的时候就不一样了。

随机梯度下降法

在这里插入图片描述
相比于梯度下降，随机梯度下降是取其中一些样本，然后在这些样本的误差，然后更新参数。

梯度下降和随机梯度下降的对比。

可以发现虽然随机梯度下降的每一步方向与整体方向不一定是一致的，但所以把所有样本经过训练后，方向和整体还是一致的。但是整体走一次，随机梯度下降相当于走了20次，有着速度的优势。

特征归一化

如果两个输入的分布的范围很不一样，建议把他们的范围缩放，使得不同输入的范围是一样的。
在这里插入图片描述

为什么要进行特征归一化呢？，看上图，x1的范围要比x2小的多，所以当w1和w2做同样的变化时，w1对y的变化是比较小的，x2对y的影响是比较大的，参照下面的损失曲线，因为w1对y的变化影响较小，所以w1对损失函数的影响较小，w1对损失函数有较小的微分，所以w1方向上是比较平滑的，同理x2对y的影响比较大，所以x2对损失函数的影响比较大。
可以看到绿色的归一化的损失曲线是比较接近圆形。
在这里插入图片描述
归一化的方法：对每个维数求出平均数和维数，然后对每个特征减去其相应的平均值然后初去方差。

梯度下降理论

首先要明确一个观点，我们每次更新参数的话，损失不一定会减小。
在这里插入图片描述
这里假设我们针对是一个两个参数的优化问题。在误差函数中，如果我们选择了一个初始点，如果我们不考虑梯度的话，其实我们还有另一个做法：

就是在初始值附近画一个圈圈，在这个圈圈里面找到一个误差更小的点，然后再画一个圈圈，再找一个误差更小的点。依次类推，最终我们应该也可以找到一个可以令人满意的解。
在这里插入图片描述
那么如何在小圆圈内找到最小值呢？
这里要用到泰勒定理：在一个函数中，对于x0附近的x值，都可以用图中的公式来表示.当x很接近x0，的时候就可以只留一次导项。

泰勒定理也是对多参数有支持

之前的那个圈圈内找最值得问题就是中的误差函数可以表示成下图的形式。
在这里插入图片描述

这样误差就转换成了一个向量相乘的一个问题。发现参数更新就是中心点减去一个一个常数乘于u,v。

然后就把u,v带回去，发现就是梯度值。但这里有个前提就是这个圈必须足够小，也就是说学习率要够小，才能满足泰勒公式。
在这里插入图片描述

梯度下降的限制

1.卡着局部最小值
2.卡在鞍点上
3.卡在一个高原上
在这里插入图片描述

I_AM_jm

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记三--误差从哪来&梯度下降

错误的来源误差和偏差估测我们训练的模型其实是一个估测的结果，预估的结果。就像我们打靶一样，真实值是靶心，我们投的位置是我们的训练好的模型预估的结果偏差的计算如果我们要估算一个变量的平均值和方差，我们估算出来的平均值和真实的平均值是不一样的。但是如果我们利用样本平均值再求期望的话，这个值会接近真实平均值，那么这样的估计叫无偏估计。但这个每次的估计虽然会接近真实平均值，但始终又和真实平均值是有误差的。而这个误差就可以用方差variance来表示，variance的值和我们的样本数量密切相关。如
复制链接

扫一扫

专栏目录