pytorch系列13 ---优化算法optim类

本文主要讲解pytorch中的optim累以及lr_schdule类和optim优化器的配置,使用方法。

https://blog.csdn.net/dss_dssssd/article/details/83892824中提及优化算法的使用步骤,

  • optimer = optim.SGD() 先初始化

  • 反向传播更新参数

    1. 将上次迭代计算的梯度值清0
      optimizer.zero_grad()
    2. 反向传播,计算梯度值
      loss.backward()
    3. 更新权值参数
      optimizer.step()

    一. 使用optimizer的步骤

    SGD源码: https://pytorch.org/docs/stable/_modules/torch/optim/sgd.html

1. 构造optimizer

1.1 初始化函数__init__:

在这里插入图片描述

参数:

  • params: 包含参数的可迭代对象,必须为Tensor

  • 其余的参数来配置学习过程中的行为

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)
optimizer = optim.Adam([var1, var2], lr = 0.0001)
1.2. per-parameter 选择

不是传入Tensor的可迭代对象,而是传入
dict的可迭代对象,每一个字典定义一个独立的参数组,每一个dict必须包含一个params键,和一系列与该优化函数对应的参数。

	optim.SGD([
	                {
   'params': model.base.parameters()},
	                {
   'params': model.classifier.parameters(), 'lr': 1e-3}
	            ], lr=1e-2, momentum=0.9)

上述代码,model.base中的参数更新使用learning rate1e-2的SGD算法,而model.classifier中的参数更新使用learning rate1e-2, momentum为0.9的SGD算法

下面用一个两层的线性回归的例子说明一下:
输入为[11, 1], 第一层为[1, 10], 第二层为[10, 1],最后的输出为[11,1]。在优化算法中,第一层和第二层分别使用不同的优化器配置方案。


                
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
L-SGD(Local Stochastic Gradient Descent)是一种分布式优化算法,用于在分布式计算环境中进行大规模机器学习模型的训练。L-SGD算法将数据集分成多个子集,每个子集由一个独立的处理器处理。每个处理器使用随机梯度下降算法计算局部梯度,然后将这些局部梯度组合起来计算全局梯度。以下是用PyTorch实现L-SGD算法的示例代码: ```python import torch import torch.distributed as dist # Initialize distributed communication dist.init_process_group(backend='gloo') # Set up the data batch_size = 64 train_dataset = torch.utils.data.TensorDataset(X_train, y_train) train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, sampler=train_sampler) # Set up the model model = MyModel() model = torch.nn.parallel.DistributedDataParallel(model) # Set up the optimizer optimizer = torch.optim.SGD(model.parameters(), lr=0.01) # Train the model for epoch in range(num_epochs): train_sampler.set_epoch(epoch) for batch_idx, (data, target) in enumerate(train_loader): optimizer.zero_grad() output = model(data) loss = loss_fn(output, target) loss.backward() optimizer.step() ``` 在这个示例代码中,我们首先初始化了分布式通信。然后我们设置了数据集、模型和优化器。在每个epoch中,我们通过设置sampler来确保每个处理器都处理数据集中的不同部分。在每个batch中,我们通过计算局部梯度来更新模型参数,并使用dist.all_reduce()函数将所有处理器计算出的梯度聚合成全局梯度。最后,我们通过optimizer.step()函数更新模型参数。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值