深度学习之优化器(简要总结)

优化器是用于训练神经网络模型的关键组件,它们决定了模型参数如何根据损失函数的梯度进行更新。不同的优化器具有不同的特性和适用场景。

下面将介绍几种常见的深度学习优化器,以及基于pytorch框架的定义和使用方法。

1.SGD(Stochastic Gradient Descent)

随机梯度下降是最基础的优化算法。它沿着梯度的反方向更新参数,每次更新只考虑单个样本或小批量样本的梯度。优点是简单易懂,容易实现。缺点是收敛速度比较慢,且容易陷入局部最优解。

import torch
import torch.optim as optim

# 定义模型
model = Modeel() 
#自定义的网络模型

# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9, weight_decay=0.005)

SGD优化器参数如下:

params (iterable of parameters):
作用:指定要优化的参数列表。
类型:可迭代对象,通常是模型的 model.parameters() 返回的结果。

lr (float):
作用:学习率,控制参数更新的步长大小。
默认值:0.01。
学习率的选择对模型的训练效果影响极大,通常需要通过实验来进行调整。较小的学习率可能导致收敛速度慢,而较大的学习率可能导致震荡或无法收敛。

momentum (float, optional):
作用:动量因子,用于加速SGD在相关方向上的移动,有助于加快收敛速度并减少震荡。
默认值:0。
通常设置在0.9左右,但根据问题的性质和实验情况可以进行微调。过高的动量可能导致模型在局部最小值周围无法稳定。

dampening (float, optional):
作用:动量的抑制因子,用于抑制动量的振荡。
默认值:0。
适用条件:仅当设置了动量时才有效。

weight_decay (float, optional):
作用:权重衰减(L2惩罚),用于在每次更新时惩罚较大的权重值,有助于防止过拟合。
默认值:0。
建议:根据数据集和模型复杂度调整。过高的权重衰减可能导致欠拟合。

nesterov (bool, optional):
作用:是否使用Nesterov动量。
默认值:False。
Nesterov动量在一些情况下可以提供更好的收敛性能,特别是在梯度较稀疏的情况下。

lr_decay (float, optional):
作用:学习率衰减因子。每个epoch结束后,学习率会乘以这个因子。
默认值:0。

2.AdaGrad(Adaptive Gradient)

AdaGrad优化器的优点是能够自适应地调整学习率,对于不同的参数可以根据其历史梯度信息进行个性化的学习率调整,对稀疏数据效果较好。缺点是由于学习率不断减小,可能会在后期导致学习率过小,使得训练提前结束,无法达到最优解。

import torch
import torch.optim as optim

# 定义模型
model = Model()

# 定义优化器
optimizer = optim.Adagrad(model.parameters(), lr=0.01, weight_decay=0.0005)

AdaGrad优化器参数如下:

params (iterable of parameters):
作用:指定要优化的参数列表。
类型:可迭代对象,通常是模型的 model.parameters() 返回的结果。

lr (float):
作用:学习率,控制参数更新的步长大小。
默认值:0.01。
学习率的选择对模型的训练效果影响极大,通常需要通过实验来进行调整。

lr_decay (float, optional):
作用:学习率衰减因子。每个epoch结束后,学习率会乘以这个因子。
默认值:0。

weight_decay (float, optional):
作用:权重衰减(L2惩罚),用于在每次更新时惩罚较大的权重值,有助于防止过拟合。
默认值:0。
根据数据集和模型复杂度调整。过高的权重衰减可能导致欠拟合。

eps (float, optional):
作用:为了数值稳定性而添加到分母中的小值,避免除以零。
默认值:1e-10。
一般情况下不需要更改这个值,除非遇到数值稳定性的问题。

3.RMSProp(Root Mean Square Propagation)

RMSProp是AdaGrad的改进版本。它通过引入一个衰减系数来限制历史梯度信息的累积,以解决AdaGrad在长时间训练中学习率过快下降的问题。

import torch
import torch.optim as optim

# 定义模型
model = Model()

# 定义优化器
optimizer = optim.RMSprop(model.parameters(), lr=0.001, alpha=0.9, eps=1e-8, weight_decay=0.005)


RMSProp优化器参数如下:

params (iterable of parameters):
作用:指定要优化的参数列表。
类型:可迭代对象,通常是模型的 model.parameters() 返回的结果。

lr (float):
作用:学习率,控制参数更新的步长大小。
默认值:0.01。

alpha (float, optional):
作用:平滑常数,默认为0.99。
一般情况下不需要更改这个值。它是用来计算RMSProp中平方梯度的移动平均值的指数衰减率。

eps (float, optional):
作用:为了数值稳定性而添加到分母中的小值,避免除以零。
默认值:1e-8。
一般情况下不需要更改这个值,除非遇到数值稳定性的问题。

weight_decay (float, optional):
作用:权重衰减(L2惩罚),用于在每次更新时惩罚较大的权重值,有助于防止过拟合。
默认值:0。
根据数据集和模型复杂度调整。过高的权重衰减可能导致欠拟合。

momentum (float, optional):
作用:动量因子,用于加速优化过程。
默认值:0。
通常不需要设置动量,因为RMSProp本身已经包含了动量的效果。

4.Adam (Adaptive Moment Estimation)

Adam优化器结合了动量优化器和RMSProp的思想,能够自适应地调整每个参数的学习率,收敛速度较快,在很多情况下能够取得比较好的性能。但是,它可能会出现权重方差估计过高的情况,导致在某些情况下收敛效果不如SGD。

import torch
import torch.optim as optim

# 定义模型
model = Model()

# 定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999), eps=1e-8, weight_decay=0.005)


Adam优化器参数如下:


params (iterable of parameters):
作用:指定要优化的参数列表。
类型:可迭代对象,通常是模型的 model.parameters() 返回的结果。

lr (float):
作用:学习率,控制参数更新的步长大小。
默认值:0.001。

betas (Tuple[float, float], optional):
作用:用于计算梯度的一阶矩估计(均值)和二阶矩估计(未中心化的方差)的系数。
默认值:(0.9, 0.999)。
通常情况下不需要更改这个值。第一个元素是一阶矩估计的衰减率(动量),第二个元素是二阶矩估计的衰减率。

eps (float, optional):
作用:为了数值稳定性而添加到分母中的小值,避免除以零。
默认值:1e-8。
建议:一般情况下不需要更改这个值,除非遇到数值稳定性的问题。

weight_decay (float, optional):
作用:权重衰减(L2惩罚),用于在每次更新时惩罚较大的权重值,有助于防止过拟合。
默认值:0。
根据数据集和模型复杂度调整。过高的权重衰减可能导致欠拟合。

一般来说,Adam和SGD这两个优化器是我们训练网络模型的首选,在很多情况下,都能够取得不错的效果。当然,在实际问题中,我们也需要根据具体问题和数据特点,灵活选择和调整优化器,以达到最佳的训练效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值