关于深度学习优化器 optimizer 的选择，你需要了解这些

最新推荐文章于 2023-05-24 10:34:20 发布

RedMery

最新推荐文章于 2023-05-24 10:34:20 发布

阅读量545

点赞数

文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/u010948546/article/details/105145287

版权

本文参了：https://www.leiphone.com/news/201706/e0PuNeEzaXWsMPZX.html，在本文基础上进行了重新排版，公式进行了重新编辑。

本文将梳理：

每个算法的梯度更新规则和缺点
为了应对这个不足而提出的下一个算法
超参数的一般设定值
几种算法的效果比较
选择哪种算法

优化器算法简述:

首先来看一下梯度下降最常见的三种变形 BGD，SGD，MBGD，这三种形式的区别就是取决于我们用多少数据来计算目标函数的梯度,这样的话自然就涉及到一个 trade－off，即参数更新的准确率和运行时间。

1. Batch gradient descent

梯度更新规则:

BGD 采用整个训练集的数据来计算 cost function 对参数的梯度：
$\theta_t = \theta_{t-1} - \eta \cdot \bigtriangledown_{\theta}J_{\theta}$
缺点:
由于这种方法是在一次更新中，就对整个数据集计算梯度，所以计算起来非常慢，遇到很大量的数据集也会非常棘手，而且不能投入新数据实时更新模型。

for i in range(nb_epochs):
	params_grad = evaluate_gradient(loss_function, data, params)
    params = params - learning_rate * params_grad

我们会事先定义一个迭代次数 epoch，首先计算梯度向量 params_grad，然后沿着梯度的方向更新参数 params，learning rate 决定了我们每一步迈多大。
Batch gradient descent 对于凸函数可以收敛到全局极小值，对于非凸函数可以收敛到局部极小值。

2. Stochastic gradient descent

梯度更新规则:

和 BGD 的一次用所有数据计算梯度相比，SGD 每次更新时对每个样本进行梯度更新，对于很大的数据集来说，可能会有相似的样本，这样 BGD 在计算梯度时会出现冗余，而 SGD 一次只进行一次更新，就没有冗余，而且比较快，并且可以新增样本。

RedMery

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于深度学习优化器 optimizer 的选择，你需要了解这些

本文参了：https://www.leiphone.com/news/201706/e0PuNeEzaXWsMPZX.html，在本文基础上进行了重新排版，公式进行了重新编辑。本文将梳理：每个算法的梯度更新规则和缺点为了应对这个不足而提出的下一个算法超参数的一般设定值几种算法的效果比较选择哪种算法优化器算法简述:首先来看一下梯度下降最常见的三种变形 BGD，SGD，MBGD， ...
复制链接

扫一扫