学习记录——优化器

最新推荐文章于 2023-06-28 12:03:51 发布

DY_JY

最新推荐文章于 2023-06-28 12:03:51 发布

阅读量221

点赞数

分类专栏： python学习记录文章标签： python 深度学习

本文链接：https://blog.csdn.net/DY_JY/article/details/118336569

版权

python学习记录专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这篇博客是用来记录一下最近写程序的时候，遇到的一些优化相关问题，不定期的更新和调整，如果有什么写的不对的，欢迎各位大大留言指出。同时贴上Keras的中文文档的链接Keras中文文档

一：优化器的设置

目前了解到的优化器的设置有以下几个方法，主要也是为了方便设置学习率。后续会根据了解到的更多的方法进行补充

1.1：通过LearningRateScheduler和ReduceLROnPlateau进行回调

首先，这两个函数本身应该是属于callbacks一类的，只不过其具体的功能更多的是可以设置学习率的衰减，而优化器对于我们这种不是专门研究这个方向的人而言，能动的也就是学习率的部分了，所以我把这两个callbacks也给放在这里了。具体代码如下，首先是LearningRateScheduler的使用，个人理解是可以快速方便完成自己设想的关于学习率更新等的算法创新。

import tensorflow.keras.backend as K
from tensorflow.keras.callbacks import LearningRateScheduler
 
def scheduler(epoch):
    # 每隔100个epoch，学习率减小为原来的1/10
    if epoch % 100 == 0 and epoch != 0:
        lr = K.get_value(model.optimizer.lr)
        K.set_value(model.optimizer.lr, lr * 0.1)
        print("lr changed to {}".format(lr * 0.1))
    return K.get_value(model.optimizer.lr)
 
reduce_lr = LearningRateScheduler(scheduler)
model.fit(train_x, train_y, batch_size=32, epochs=300, callbacks=[reduce_lr])

然后是ReduceLROnPlateau的使用

from tensorflow.keras.callbacks import ReduceLROnPlateau
reduce_lr = ReduceLROnPlateau(monitor='val_loss', patience=10, mode='auto')
model.fit(train_x, train_y, batch_size=32, epochs=300, validation_split=0.1, callbacks=[reduce_lr])

除此外ReduceLROnPlateau函数还有如下的参数

tensorflow.keras.callbacks.ReduceLROnPlateau(monitor='val_loss', factor=0.1, patience=10, verbose=0, mode='auto', epsilon=0.0001, cooldown=0, min_lr=0)

monitor：被检测的量。
factor：每次减少学习率的因子，学习率将以lr=lr*factor的量进行减少。
patience：当patience个epoch过去而模型性能不提升时，学习率减少的动作会被触发。
mode：‘auto’、‘min’、‘max’之一，在min模式下，如果检测值触发学习率减少。在max模式下，当检测值不再上升则触发学习率减少。
epsilon：阈值，用来确定是否进入检测值的“平原区”。
cooldown：学习率减少后，会经过cooldown个epoch才重新进行正常操作，一般都是0。
min_lr：学习率的下限。

1.2：通过optimizer的方法进行调用

第一种设置好后调用

from keras import optimizers
 
model = Sequential()
model.add(Dense(64, kernel_initializer='uniform', input_shape=(10,)))
model.add(Activation('softmax'))
 
sgd = optimizers.SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True)
model.compile(loss='mean_squared_error', optimizer=sgd)

第二种直接调用默认参数

# 传入优化器名称: 默认参数将被采用
model.compile(loss='mean_squared_error', optimizer='sgd')

1.3：各种优化器总结

sgd：随机梯度下降优化器。
RMSprop：通常用来训练RNN网络。
Adagrad：是一种具有特定参数学习率的优化器，根据参数在训练期间的更新频率进行自适应调整。参数接收的更新越多，更新越小。
Adadeltaz：是Adagrad的一个具有更强鲁棒性的扩展版本。
Adam：本质上是RMSprop与动量momentum的结合。
Nadam：采用Nesterov momentum版本的Adam优化器。

DY_JY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习记录——优化器

这篇博客是用来记录一下最近写程序的时候，遇到的一些优化相关问题，不定期的更新和调整，如果有什么写的不对的，欢迎各位大大留言指出。同时贴上Keras的中文文档的链接Keras中文文档一：学习率的设置目前了解到的学习率的设置有以下几个方法，后续会根据了解到的更多的方法进行补充1.1：通过LearningRateScheduler和ReduceLROnPlateau进行回调具体代码如下，首先是LearningRateScheduler的使用，个人理解是可以快速方便完成自己设想的关于学习率更新的算法创新。
复制链接

扫一扫