8.优化器

一、优化器

常见的一些优化器有:SGD、Adagrad、Adadelta、RMSprop、Adam、Adamax、Nadam、TFOptimizer等等。

1.SGD(Stochastic gradient descent)

标准梯度下降法:
标准梯度下降法计算所有样本汇总误差,然后根据总误差来更新权值。
随机梯度下降法:
随机梯度下降法随机抽取一个样本来计算误差,然后更新权值。
批量梯度下降法:
批量梯度下降算是一种折中的方案,从总样本中选取一个批次(比如一共有10000个样本,随机选取100个样本作为一个batch),然后计算这个batch的总误差,根据总误差来更新权值。

标准梯度下降法:速度慢,效果好
随机梯度下降法:速度快,效果差
在这里插入图片描述
在这里插入图片描述

2.Momentum

γ \gamma γ动力,通常设置为0.9。
在这里插入图片描述
当前权值的改变会受到上一次权值改变的影响,类似于小球向下滚动的时候带上了惯性。这样可以加快小球的向下的速度。

3.NAG(Nesterov accelerated gradient)

γ \gamma γ动力,通常设置为0.9。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.Adagrad

在这里插入图片描述
ε:避免分母为0,取值一般是1e-8。
Adagrad主要的优势在于不需要人为的调节学习率,它可以自动调节。它的缺点在于,随着迭代次数的增多,学习率也会越来越低,最终会趋向于0。

5.RMSprop

在这里插入图片描述
γ \gamma γ动力,通常设置为0.9。
RMSprop是Adagrad的改进,RMSprop不会出现学习率越来越低的问题,而且也能自己调节学习率,可以得到一个比较好的效果。

6.Adadelta

在这里插入图片描述
γ \gamma γ动力,通常设置为0.9。
Adadelta也是Adagrad的改进,Adadelta不需要使用学习率也可以达到一个很好的效果。

7.Adam

在这里插入图片描述
β1:通常取0.9,β2:通常取0.999。
Adam是常用的一种优化器。Adam会存储之前衰减的平方梯度,同时它也会保存之前衰减的梯度。经过一些处理之后再用来更新权值W。

效果对比:

请添加图片描述
在这里插入图片描述

二、优化器的简单使用

以使用Adam优化器为例:
修改4.交叉熵中的

# 定义优化器
sgd = SGD(lr=0.2)

# 定义优化器,loss_function,训练过程中计算准确率
model.compile(
    optimizer=sgd,
    loss="categorical_crossentropy",
    metrics=['accuracy']
)

变化为

# 定义优化器
sgd = SGD(lr=0.2)
adam = Adam(lr=0.001)

# 定义优化器,loss_function,训练过程中计算准确率
model.compile(
    optimizer=adam,
    loss="categorical_crossentropy",
    metrics=['accuracy']
)

使用前需要先导入from tensorflow.keras.optimizers import SGD,Adam
运行结果:
在这里插入图片描述

完整代码

代码运行平台为jupyter-notebook,文章中的代码块,也是按照jupyter-notebook中的划分顺序进行书写的,运行文章代码,直接分单元粘入到jupyter-notebook即可。
1.导入第三方库

import numpy as np
from keras.datasets import mnist
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers import Dense
from tensorflow.keras.optimizers import SGD,Adam

2.加载数据及数据预处理

# 载入数据
(x_train,y_train),(x_test,y_test) = mnist.load_data()
#  (60000, 28, 28)
print("x_shape:\n",x_train.shape)
# (60000,)  还未进行one-hot编码 需要后面自己操作
print("y_shape:\n",y_train.shape)
# (60000, 28, 28) -> (60000,784)  reshape()中参数填入-1的话可以自动计算出参数结果 除以255.0是为了归一化
x_train = x_train.reshape(x_train.shape[0],-1)/255.0
x_test = x_test.reshape(x_test.shape[0],-1)/255.0
# 换one hot格式
y_train = np_utils.to_categorical(y_train,num_classes=10)
y_test = np_utils.to_categorical(y_test,num_classes=10)

3.训练模型

# 创建模型 输入784个神经元,输出10个神经元
model = Sequential([
        # 定义输出是10 输入是784,设置偏置为1,添加softmax激活函数
        Dense(units=10,input_dim=784,bias_initializer='one',activation="softmax"),
])
# 定义优化器
sgd = SGD(lr=0.2)
adam = Adam(lr=0.001)

# 定义优化器,loss_function,训练过程中计算准确率
model.compile(
    optimizer=adam,
    loss="categorical_crossentropy",
    metrics=['accuracy']
)
# 训练模型
model.fit(x_train,y_train,batch_size=32,epochs=10)

# 评估模型
loss,accuracy = model.evaluate(x_test,y_test)

print("\ntest loss",loss)
print("accuracy:",accuracy)
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在神经网络的训练过程中,优化器是一个非常重要的组件,它的作用是通过调整模型的参数来最小化损失函数。常见的优化器有以下几种: 1. 梯度下降(Gradient Descent,GD):是一种最基本的优化器,通过计算损失函数的梯度来更新模型的参数,使得损失函数逐渐减小。 2. 随机梯度下降(Stochastic Gradient Descent,SGD):是梯度下降算法的一种变体,它每次只使用一个样本来计算梯度,并更新模型的参数,可以加快训练速度。 3. 动量(Momentum):为了解决梯度下降算法在参数更新时容易陷入局部最优解的问题,动量算法引入了一个动量项,使得参数更新时不仅考虑当前的梯度,还考虑之前的梯度方向,从而使得参数更新更加平滑。 4. 自适应学习率优化器:包括Adagrad、Adadelta、Adam等算法,可以根据参数的历史梯度信息来自适应地调整学习率,从而更加高效地更新模型参数。 5. RMSprop:是一种自适应学习率算法,它通过指数加权平均来计算梯度的二次平均值,从而自适应地调整学习率。 6. Adadelta:是一种自适应学习率算法,它通过对梯度的二次平均值进行自适应地调整学习率。 7. Adam:是一种自适应学习率算法,它综合了动量和自适应学习率的优点,通过计算梯度的一阶矩和二阶矩来自适应地调整学习率。 不同的优化器适用于不同的场景,需要根据具体的任务和数据集进行选择和调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

布兹学长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值