4-梯度下降

最新推荐文章于 2022-12-19 16:12:02 发布

王蒟蒻

最新推荐文章于 2022-12-19 16:12:02 发布

阅读量380

点赞数 1

分类专栏： # 李宏毅机器学习

本文链接：https://blog.csdn.net/weixin_41413511/article/details/115941426

版权

10 篇文章 0 订阅

订阅专栏

方法

缘由

自适应学习率

Adagrad 算法

每个参数的学习率都把它除上之前微分的均方根。
$w^{t+1} \leftarrow w^t -\frac{η^t}{\sigma^t}g^t \tag5$
$g^t =\frac{\partial L(\theta^t)}{\partial w} \tag6$
$\sigma^t$ :之前参数的所有微分的均方根，对于每个参数都是不一样的。
原理
- 最好的步伐应该是：
  $\frac{一次微分}{二次微分}$
- 对于 $\sqrt{\sum_{i=0}^t(g^i)^2}$ 就是希望再尽可能不增加过多运算的情况下模拟二次微分。（如果计算二次微分，在实际情况中可能会增加很多的时间消耗）

在每次更新时用1个样本，可以看到多了随机两个字，随机也就是说我们用样本中的一个例子来近似我所有的样本，来调整θ，因而随机梯度下降是会带来一定的问题，因为计算得到的并不是准确的一个梯度，**对于最优化问题，凸问题，**虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。但是相比于批量梯度，这样的方法更快，更快收敛，虽然不是全局最优，但很多时候是我们可以接受的，所以这个方法用的也比上面的多。
针对某个例子，计算所有参数的损失函数，然后走一步，对下一个点，重新计算损失函数，然后走一步

之前的梯度下降：

$L=\sum_n(\hat y^n-(b+\sum w_ix_i^n))^2 \tag8$
$\theta^i =\theta^{i-1}- \eta\triangledown L(\theta^{i-1}) \tag9$

而随机梯度下降法更快：

损失函数不需要处理训练集所有的数据，选取一个例子 $x^n$

$L=(\hat y^n-(b+\sum w_ix_i^n))^2 \tag{10}$
$\theta^i =\theta^{i-1}- \eta\triangledown L^n(\theta^{i-1}) \tag{11}$

此时不需要像之前那样对所有的数据进行处理，只需要计算某一个例子的损失函数Ln，就可以赶紧update 梯度。

例子1

例子二

利用帝国时代的方式模拟梯度下降；
在地图上大多数位置我们是未知的，只有我们单位走过的地方是可知；
地图上的海拔可以看作损失函数loss function，我们的目的就是寻找海拔的最低点的值；
随机初始一个位置，朝向较低的方向移动，周而复始，直到local minimal(在不开天眼的情况下，你始终不会知晓所在位置是否为global minimal)。