如何选择优化器 optimizer

最新推荐文章于 2024-08-02 21:04:01 发布

Alice熹爱学习

最新推荐文章于 2024-08-02 21:04:01 发布

阅读量4.4w

点赞数 19

分类专栏： DeepLearning 文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/73210204

版权

本文详细介绍了优化器的选择，包括 Batch Gradient Descent、Stochastic Gradient Descent、Mini-batch Gradient Descent、Momentum、Nesterov Accelerated Gradient、Adagrad、Adadelta、RMSprop 和 Adam。在 TensorFlow 和 Keras 中，Adam 通常是首选优化器，因为它具有良好的收敛性和适应性。文章对比了不同优化器的优缺点、超参数设置以及实际效果，强调在稀疏数据场景下，自适应学习率方法（如 Adagrad, Adadelta, RMSprop, Adam）更为合适，而 Adam 结合了 RMSprop 的优点和 Momentum，通常表现出色。" 111690642,10296484,Python量化投资：利用tushare获取股票数据及分析,"['数据分析', 'Python', '金融', '量化投资', 'tushare']

摘要由CSDN通过智能技术生成

在很多机器学习和深度学习的应用中，我们发现用的最多的优化器是 Adam，为什么呢？

下面是 TensorFlow 中的优化器，
https://www.tensorflow.org/api_guides/python/train

在 keras 中也有 SGD，RMSprop，Adagrad，Adadelta，Adam 等：
https://keras.io/optimizers/

我们可以发现除了常见的梯度下降，还有 Adadelta，Adagrad，RMSProp 等几种优化器，都是什么呢，又该怎么选择呢？

在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较，今天来学习一下：
https://arxiv.org/pdf/1609.04747.pdf

本文将梳理：

每个算法的梯度更新规则和缺点
为了应对这个不足而提出的下一个算法
超参数的一般设定值
几种算法的效果比较
选择哪种算法

1. 优化器算法简述?

首先来看一下梯度下降最常见的三种变形 BGD，SGD，MBGD，
这三种形式的区别就是取决于我们用多少数据来计算目标函数的梯度，
这样的话自然就涉及到一个 trade－off，即参数更新的准确率和运行时间。

1. Batch gradient descent

梯度更新规则:
BGD 采用整个训练集的数据来计算 cost function 对参数的梯度：

缺点:
由于这种方法是在一次更新中，就对整个数据集计算梯度，所以计算起来非常慢，遇到很大量的数据集也会非常棘手，而且不能投入新数据实时更新模型

for i in range(nb_epochs):
  params_grad = evaluate_gradient(loss_function, data, params)
  params = params - learning_rate * params_grad

我们会事先定义一个迭代次数 epoch，首先计算梯度向量 params_grad，然后沿着梯度的方向更新参数 params，learning rate 决定了我们每一步迈多大。

Batch gradient descent 对于凸函数可以收敛到全局极小值，对于非凸函数可以收敛到局部极小值。

2. Stochastic gradient descent

梯度更新规则:
和 BGD 的一次用所有数据计算梯度相比，SGD 每次更新时对每个样本进行梯度更新，
对于很大的数据集来说，可能会有相似的样本，这样 BGD 在计算梯度时会出现冗余，
而 SGD 一次只进行一次更新，就没有冗余，而且比较快，并且可以新增样本。

最低0.47元/天解锁文章

Alice熹爱学习

关注

19
点赞
踩
102

收藏

觉得还不错? 一键收藏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录