训练过程中使用学习率衰减

最新推荐文章于 2024-03-06 21:35:43 发布

Samuel_0

最新推荐文章于 2024-03-06 21:35:43 发布

阅读量9.5k

点赞数 2

分类专栏： Keras 文章标签： Keras 深度学习学习率衰减

本文链接：https://blog.csdn.net/sun___M/article/details/83749683

版权

Keras 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

随机梯度下降算法的性能与学习率有着直接的关系，这是因为学习率决定了参数移动到最优值时的速度。如果学习率过大很可能会越过最优值，如果学习率过小，优化的效率可能过低，收敛时间极长。那么一个很好的解决方案就是学习率衰减——即学习率随着训练的进行逐渐衰减。

在训练过程开始时，使用较大的学习率，这样就能快速收敛；随着训练过程的进行，逐渐降低学习率，这样有助于找到最优解。

目前两种较为流行的学习率衰减方法为：（1）线性衰减（2）指数衰减

（一）学习率线性衰减：

根据epoch逐步降低学习率。

在Keras中是通过SGD类中的随机梯度下降优化算法实现的，这个类有一个decay衰减率参数。

decay=0时，对学习率没有影响，非零时，学习率呈线性衰减。

公式为：

$LearningRate = LearningRate \ast \frac{1}{1+decay\ast epoch}$

在下面代码中，初始学习率设为0.1——这是一个较为高的值。decay设为0.005。

"""
学习率线性衰减
"""
from sklearn import datasets
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.optimizers import SGD

#导入数据
dataset = datasets.load_iris()
x=dataset.data
Y=dataset.target
#随机种子
seed=7
np.random.seed(seed)

#构建模型函数
def create_model(init='glorot_uniform'):
    #构建模型
    model = Sequential()
    model.add(Dense(units=4, activation='relu', input_dim=4, kernel_initializer=init))
    model.add(Dense(units=6, activation='relu', kernel_initializer=init))
    model.add(Dense(units=3, activation='softmax', kernel_initializer=init))

    #模型优化
    learningrate = 0.1
    momentum = 0.9
    dacay_rate = 0.005
    #定义学习率衰减
    sgd = SGD(lr=learningrate, momentum=momentum, decay=dacay_rate, nesterov=False)
    #编译模型
    model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])
    return model

epochs = 200
model = KerasClassifier(build_fn=create_model, epochs=epochs, batch_size=5, verbose=1)
model.fit(x, Y)

结果为：

Epoch 1/200
2018-11-05 15:05:48.177490: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2
2018-11-05 15:05:48.179412: I tensorflow/core/common_runtime/process_util.cc:69] Creating new thread pool with default inter op setting: 8. Tune using inter_op_parallelism_threads for best performance.

5/150 [>.............................] - ETA: 7s - loss: 1.0809 - acc: 0.4000
150/150 [==============================] - 0s 2ms/step - loss: 0.7938 - acc: 0.5800
Epoch 2/200

5/150 [>.............................] - ETA: 0s - loss: 0.2944 - acc: 0.8000
150/150 [==============================] - 0s 203us/step - loss: 0.4864 - acc: 0.6667
Epoch 3/200

5/150 [>.............................] - ETA: 0s - loss: 0.2835 - acc: 0.8000
150/150 [==============================] - 0s 213us/step - loss: 0.4922 - acc: 0.6533
Epoch 4/200

5/150 [>.............................] - ETA: 0s - loss: 0.5734 - acc: 0.6000
150/150 [==============================] - 0s 210us/step - loss: 0.4693 - acc: 0.7000

。。。。。。
Epoch 199/200

5/150 [>.............................] - ETA: 0s - loss: 0.4183 - acc: 0.6000
150/150 [==============================] - 0s 200us/step - loss: 0.4632 - acc: 0.6400
Epoch 200/200

5/150 [>.............................] - ETA: 0s - loss: 0.5556 - acc: 0.6000
150/150 [==============================] - 0s 247us/step - loss: 0.4639 - acc: 0.6333

（二）学习率指数衰减：

这种方法通常是通过在固定的epoch周期将学习速率降低50%来实现的。

在Keras中，使用LearningRateScheduler回调，来实现学习率的指数衰减。函数将epoch数值作为一个参数，并将学习率返回到随机梯度下降算法中使用。

"""
学习率指数级衰减
"""
from sklearn import datasets
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.optimizers import SGD
from keras.callbacks import LearningRateScheduler
from math import pow, floor

#导入数据
dataset = datasets.load_iris()
x=dataset.data
Y=dataset.target
#随机种子
seed=7
np.random.seed(seed)

#计算学习率
def step_decay(epoch):
    init_lrate = 0.1#初始学习率定为0.1（较高）
    drop = 0.5#学习率降低50%
    epochs_drop = 10#没10个epochs降低一次
    lrate = init_lrate * pow(drop, floor(1 + epoch) / epochs_drop)
    return lrate

#构建模型函数
def create_model(init='glorot_uniform'):
    #构建模型
    model = Sequential()
    model.add(Dense(units=4, activation='relu', input_dim=4, kernel_initializer=init))
    model.add(Dense(units=6, activation='relu', kernel_initializer=init))
    model.add(Dense(units=3, activation='softmax', kernel_initializer=init))
    # 模型优化
    learningrate = 0.1
    momentum = 0.9
    dacay_rate = 0.0
    # 定义学习率衰减
    sgd = SGD(lr=learningrate, momentum=momentum, decay=dacay_rate, nesterov=False)
    # 编译模型
    model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])
    return model

#学习率指数衰减回调
lrate = LearningRateScheduler(step_decay)

epochs = 200
model = KerasClassifier(build_fn=create_model, epochs=epochs, batch_size=5, verbose=1, callbacks=[lrate])
model.fit(x,Y)

。。。。

Epoch 197/200

5/150 [>.............................] - ETA: 0s - loss: 1.0988 - acc: 0.0000e+00
150/150 [==============================] - 0s 207us/step - loss: 1.0986 - acc: 0.3333
Epoch 198/200

5/150 [>.............................] - ETA: 0s - loss: 1.0985 - acc: 0.4000
150/150 [==============================] - 0s 203us/step - loss: 1.0986 - acc: 0.3333
Epoch 199/200

5/150 [>.............................] - ETA: 0s - loss: 1.0986 - acc: 0.2000
150/150 [==============================] - 0s 200us/step - loss: 1.0986 - acc: 0.3333
Epoch 200/200

5/150 [>.............................] - ETA: 0s - loss: 1.0986 - acc: 0.4000
150/150 [==============================] - 0s 203us/step - loss: 1.0986 - acc: 0.3333

Samuel_0

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
训练过程中使用学习率衰减

随机梯度下降算法的性能与学习率有着直接的关系，这是因为学习率决定了参数移动到最优值时的速度。如果学习率过大很可能会越过最优值，如果学习率过小，优化的效率可能过低，收敛时间极长。那么一个很好的解决方案就是学习率衰减——即学习率随着训练的进行逐渐衰减。在训练过程开始时，使用较大的学习率，这样就能快速收敛；随着训练过程的进行，逐渐降低学习率，这样有助于找到最优解。目前两种较为流行的学习率衰减方法...
复制链接

扫一扫