梯度下降算法

最新推荐文章于 2022-04-01 14:29:41 发布

BookIdiot

最新推荐文章于 2022-04-01 14:29:41 发布

阅读量1.8k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/JH0lmes/article/details/80461152

版权

深度学习专栏收录该内容

11 篇文章 8 订阅

订阅专栏

在机器学习算法中，对于很多监督学习模型，需要对原始的模型构建损失函数，接下来便是通过优化算法对损失函数进行优化，以便寻找到最优的参数。在求解机器学习参数的优化算法中，使用较多的是基于梯度下降的优化算法(Gradient Descent, GD)。梯度下降法有很多优点，其中，在梯度下降法的求解过程中，只需求解损失函数的一阶导数，计算的代价比较小，这使得梯度下降法能在很多大规模数据集上得到应用。梯度下降法的含义是通过当前点的梯度方向寻找到新的迭代点。基本思想可以这样理解：从山上的某一点出发，找一个最陡的坡走一步（也就是找梯度方向），到达一个点之后，再找最陡的坡，再走一步，直到我们不断的这么走，走到最“低”点（最小花费函数收敛点）。优化问题指的是，给定目标函数f(x)，我们需要找到一组参数x，使得f(x)的值最小。

常用的梯度下降法有，批量梯度下降法BGD，随机梯度下降法SGD，小批量梯度下降法MBGD，即：batch、SGD、mini-batch。其主要区别是不同的变形在训练数据的选择上。

下图所示，得到了局部最优解。x，y表示的是theta0和theta1，z方向表示的是花费函数，很明显出发点不同，最后到达的收敛点可能不一样。当然如果是碗状的，那么收敛点就应该是一样的。

1、批量梯度下降法BGD

Batch Gradient Descent，BGD。是梯度下降法最原始的形式，针对的是整个数据集，通过对所有的样本的计算来求解梯度的方向，即在更新每一参数时都使用所有的样本来进行更新。

批量梯度下降—最小化所有训练样本的损失函数（对全部训练数据求得误差后再对参数进行更新），使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小。批梯度下降类似于在山的某一点环顾四周，计算出下降最快的方向（多维），然后踏出一步，这属于一次迭代。批梯度下降一次迭代会更新所有theta，每次更新都是向着最陡的方向前进。

其数学形式如下：

从上面公式可以注意到，它得到的是一个全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果样本数目很大，那么这种方法的迭代速度很慢。所以，这就引入了另外一种方法，随机梯度下降。

优点：全局最优解；易于并行实现；

缺点：当样本数目很多时，训练过程会很慢。

从迭代的次数上来看，BGD迭代的次数相对较少。其迭代的收敛曲线示意图可以表示如下：

2、随机梯度下降法SGD

由于批量梯度下降法在更新每一个参数时，都需要所有的训练样本，所以训练过程会随着样本数量的加大而变得异常的缓慢。随机梯度下降法（Stochastic Gradient Descent，简称SGD）正是为了解决批量梯度下降法这一弊端而提出的。

随机梯度下降---最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。随机也就是说我用样本中的一个例子来近似我所有的样本，来调整theta，其不会计算斜率最大的方向，而是每次只选择一个维度踏出一步；下降一次迭代只更新某个theta，报着并不严谨的走走看的态度前进。

随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将theta迭代到最优解了，对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。但是，SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向，会产生局部最优解。[ theta 即 θ ]

优点：训练速度快；

缺点：准确度下降，并不是全局最优；不易于并行实现。

从迭代的次数上来看，SGD迭代的次数较多，在解空间的搜索过程看起来很盲目。迭代收敛曲线示意图如下：

3.小批量梯度下降法MBGD

由上述的两种梯度下降法可以看出，其各自均有优缺点，那么能不能在两种方法的性能之间取得一个折衷呢？即，算法的训练过程比较快，而且也要保证最终参数训练的准确率，而这正是小批量梯度下降法（Mini-batch Gradient Descent，简称MBGD）的初衷。

　　MBGD每次更新参数使用b个样本（b一般为10），设训练集中的样本的个数为1000，则每个mini-batch只是其一个子集，这样整个训练数据集可以分为100个mini-batch，伪代码如下：

　　Say b=10, m=1000.

　　Repeat{

　　　　for i=1, 11, 21, 31, ... , 991{

　　　　(for every j=0, ... , nn)

　　　　}

总结

就目前来看，实际训练当中最常用的还是SGD。

BookIdiot

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
梯度下降算法

在机器学习算法中，对于很多监督学习模型，需要对原始的模型构建损失函数，接下来便是通过优化算法对损失函数进行优化，以便寻找到最优的参数。在求解机器学习参数的优化算法中，使用较多的是基于梯度下降的优化算法(Gradient Descent, GD)。梯度下降法有很多优点，其中，在梯度下降法的求解过程中，只需求解损失函数的一阶导数，计算的代价比较小，这使得梯度下降法能在很多大规模数据集上得到应用。梯度下...
复制链接

扫一扫