[Keras] SGD 随机梯度下降优化器参数设置

最新推荐文章于 2024-05-20 12:33:24 发布

DexterLeiX

最新推荐文章于 2024-05-20 12:33:24 发布

阅读量4.4w

点赞数 13

分类专栏： DL Keras 文章标签： Keras SGD 深度学习机器学习 Python

本文链接：https://blog.csdn.net/u012862372/article/details/80319166

版权

DL 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

Keras

1 篇文章 0 订阅

订阅专栏

文章目录

@[toc]
SGD 随机梯度下降
参数设置
Time-Based Learning Rate Schedule
Drop-Based Learning Rate Schedule

参考资料

SGD 随机梯度下降

Keras 中包含了各式优化器供我们使用，但通常我会倾向于使用 SGD 验证模型能否快速收敛，然后调整不同的学习速率看看模型最后的性能，然后再尝试使用其他优化器。Keras 中文文档中对 SGD 的描述如下：

keras.optimizers.SGD(lr=0.01, momentum=0.0, decay=0.0, nesterov=False)
随机梯度下降法，支持动量参数，支持学习衰减率，支持Nesterov动量
参数：

lr：大或等于0的浮点数，学习率
momentum：大或等于0的浮点数，动量参数
decay：大或等于0的浮点数，每次更新后的学习率衰减值
nesterov：布尔值，确定是否使用Nesterov动量

参数设置

Time-Based Learning Rate Schedule

Keras 已经内置了一个基于时间的学习速率调整表，并通过上述参数中的 decay 来实现，学习速率的调整公式如下：

LearningRate = LearningRate * 1/(1 + decay * epoch)

当我们初始化参数为：

LearningRate = 0.1
decay = 0.001

大致变化曲线如下（非实际曲线，仅示意）：
Time-Based Learning Rate Schedule
当然，方便起见，我们可以将优化器设置如下，使其学习速率随着训练轮次变化：

sgd = SGD(lr=learning_rate, decay=learning_rate/nb_epoch, momentum=0.9, nesterov=True)

Drop-Based Learning Rate Schedule

另外一种学习速率的调整方法思路是保持一个恒定学习速率一段时间后立即降低，是一种突变的方式。通常整个变化趋势为指数形式。
Drop Based Learning Rate Schedule
对应的学习速率变化公式如下：

LearningRate = InitialLearningRate * DropRate^floor(Epoch / EpochDrop)

实现需要使用 Keras 中的 LearningRateScheduler 模块：

from keras.callbacks import LearningRateScheduler
# learning rate schedule
def step_decay(epoch):
	initial_lrate = 0.1
	drop = 0.5
	epochs_drop = 10.0
	lrate = initial_lrate * math.pow(drop, math.floor((1+epoch)/epochs_drop))
	return lrate

lrate = LearningRateScheduler(step_decay)

# Compile model
sgd = SGD(lr=0.0, momentum=0.9, decay=0.0, nesterov=False)
model.compile(loss=..., optimizer=sgd, metrics=['accuracy'])

# Fit the model
model.fit(X, Y, ..., callbacks=[lrate])

参考资料

DexterLeiX

关注

13
点赞
踩
100

收藏

觉得还不错? 一键收藏
5
评论
[Keras] SGD 随机梯度下降优化器参数设置

随机梯度下降Keras 中包含了各式优化器供我们使用，但通常我会倾向于使用 SGD 验证模型能否快速收敛，然后调整不同的学习速率看看模型最后的性能，然后再尝试使用其他优化器。Keras 中文文档中对 SGD 的描述如下： keras.optimizers.SGD(lr=0.01, momentum=0.0, decay=0.0, nesterov=False) 随机梯度下降法，支...
复制链接

扫一扫