深度学习（一）优化算法之随机梯度下降法（SGD）详解

最新推荐文章于 2024-05-20 12:33:24 发布

AutoFerry

最新推荐文章于 2024-05-20 12:33:24 发布

阅读量2.6k

点赞数

分类专栏： PyTorch 深度学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/qq_39809262/article/details/117528872

版权

PyTorch 同时被 2 个专栏收录

29 篇文章 12 订阅

订阅专栏

深度学习

19 篇文章 3 订阅

订阅专栏

优化算法

1.SGD

随机梯度下降法：

$\theta_{i+1} = \theta_i - \eta \nabla L(\theta)$

import numpy as np
import torch
from torchvision.datasets import MNIST # 导入 pytorch 内置的 mnist 数据
from torch.utils.data import DataLoader
from torch import nn

import time
import matplotlib.pyplot as plt
%matplotlib inline

def data_tf(x):
    x = np.array(x, dtype='float32') / 255 # 将数据变到 0 ~ 1 之间
    x = (x - 0.5) / 0.5 # 标准化，这个技巧之后会讲到
    x = x.reshape((-1,)) # 拉平
    x = torch.from_numpy(x)
    return x

train_set = MNIST('./data', train=True, transform=data_tf) # 载入数据集，申明定义的数据变换
test_set = MNIST('./data', train=False, transform=data_tf)

# 定义 loss 函数
criterion = nn.CrossEntropyLoss()

def sgd_update(parameters, lr):
    for param in parameters:
        param.data = param.data - lr * param.grad.data

# batch size设为1
train_data = DataLoader(train_set, batch_size=1, shuffle=True)
# 使用 Sequential 定义 3 层神经网络
net = nn.Sequential(
    nn.Linear(784, 200),
    nn.ReLU(),
    nn.Linear(200, 10),
)

# 开始训练
losses1 = []
idx = 0

start = time.time() # 记时开始
for e in range(5):
    train_loss = 0
    for im, label in train_data:
        
        # 前向传播
        out = net(im)
        loss = criterion(out, label)
        
        # 反向传播
        net.zero_grad()
        loss.backward()
        sgd_update(net.parameters(), 1e-2) # 使用 0.01 的学习率
        # 记录误差
        train_loss += loss.item()
        if idx % 30 == 0:
            losses1.append(loss.item())
        idx += 1
    print('epoch: {}, Train Loss: {:.6f}'
          .format(e, train_loss / len(train_data)))
end = time.time() # 计时结束
print('使用时间: {:.5f} s'.format(end - start))

epoch: 0, Train Loss: 0.346418
epoch: 1, Train Loss: 0.208787
epoch: 2, Train Loss: 0.177499
epoch: 3, Train Loss: 0.151950
epoch: 4, Train Loss: 0.142998
使用时间: 193.61232 s

x_axis = np.linspace(0, 5, len(losses1), endpoint=True)
plt.semilogy(x_axis, losses1, label='batch_size=1')
plt.legend(loc='best')

在这里插入图片描述

可以看到，loss 在剧烈震荡，因为每次都是只对一个样本点做计算，每一层的梯度都具有很高的随机性，而且需要耗费了大量的时间

# batch size=64
train_data = DataLoader(train_set, batch_size=64, shuffle=True)

# 使用 Sequential 定义 3 层神经网络
net = nn.Sequential(
    nn.Linear(784, 200),
    nn.ReLU(),
    nn.Linear(200, 10),
)

# 开始训练
losses2 = []
idx = 0
start = time.time() # 记时开始
for e in range(5):
    train_loss = 0
    for im, label in train_data:

        # 前向传播
        out = net(im)
        loss = criterion(out, label)
        # 反向传播
        net.zero_grad()
        loss.backward()
        sgd_update(net.parameters(), 1e-2)
        # 记录误差
        train_loss += loss.item()
        if idx % 30 == 0:
            losses2.append(loss.item())
        idx += 1
    print('epoch: {}, Train Loss: {:.6f}'
          .format(e, train_loss / len(train_data)))
end = time.time() # 计时结束
print('使用时间: {:.5f} s'.format(end - start))

epoch: 0, Train Loss: 0.736310
epoch: 1, Train Loss: 0.365898
epoch: 2, Train Loss: 0.321937
epoch: 3, Train Loss: 0.295115
epoch: 4, Train Loss: 0.273538
使用时间: 19.59853 s

x_axis = np.linspace(0, 5, len(losses2), endpoint=True)
plt.semilogy(x_axis, losses2, label='batch_size=64')
plt.legend(loc='best')

在这里插入图片描述

通过上面的结果可以看到 loss 没有 batch=1 震荡那么距离，同时也可以降到一定的程度了，时间上也比之前快了非常多，因为按照 batch 的数据量计算上更快，同时梯度对比于 batch size = 1 的情况也跟接近真实的梯度，所以 batch size 的值越大，梯度也就越稳定，而 batch size 越小，梯度具有越高的随机性，这里 batch size 为 64，可以看到 loss 仍然存在震荡，但这并没有关系，如果 batch size 太大，对于内存的需求就更高，同时也不利于网络跳出局部极小点，所以现在普遍使用基于 batch 的随机梯度下降法，而 batch 的多少基于实际情况进行考虑。

# 调大学习率
train_data = DataLoader(train_set, batch_size=64, shuffle=True)
# 使用 Sequential 定义 3 层神经网络
net = nn.Sequential(
    nn.Linear(784, 200),
    nn.ReLU(),
    nn.Linear(200, 10),
)

# 开始训练
losses3 = []
idx = 0
start = time.time() # 记时开始
for e in range(5):
    train_loss = 0
    for im, label in train_data:

        # 前向传播
        out = net(im)
        loss = criterion(out, label)
        # 反向传播
        net.zero_grad()
        loss.backward()
        sgd_update(net.parameters(), 1) # 使用 1.0 的学习率
        # 记录误差
        train_loss += loss.item()
        if idx % 30 == 0:
            losses3.append(loss.item())
        idx += 1
    print('epoch: {}, Train Loss: {:.6f}'
          .format(e, train_loss / len(train_data)))
end = time.time() # 计时结束
print('使用时间: {:.5f} s'.format(end - start))

epoch: 0, Train Loss: 2.810962
epoch: 1, Train Loss: 2.305458
epoch: 2, Train Loss: 2.305121
epoch: 3, Train Loss: 2.305018
epoch: 4, Train Loss: 2.304572
使用时间: 19.39814 s

x_axis = np.linspace(0, 5, len(losses3), endpoint=True)
plt.semilogy(x_axis, losses3, label='lr = 1')#semilogy 将使用 y 轴的对数刻度绘制数据。
plt.legend(loc='best')

在这里插入图片描述

可以看到，学习率太大会使得损失函数不断回跳，从而无法让损失函数较好降低，所以我们一般都是用一个比较小的学习率

使用pytorch自带的优化器

train_data = DataLoader(train_set, batch_size=64, shuffle=True)
# 使用 Sequential 定义 3 层神经网络
net = nn.Sequential(
    nn.Linear(784, 200),
    nn.ReLU(),
    nn.Linear(200, 10),
)

optimzier = torch.optim.SGD(net.parameters(), 1e-2)
# 开始训练

start = time.time() # 记时开始
for e in range(5):
    train_loss = 0
    for im, label in train_data:

        # 前向传播
        out = net(im)
        loss = criterion(out, label)
        # 反向传播
        optimzier.zero_grad() # net.zero_grad() 具有相同的效果
        loss.backward()
        optimzier.step() #不需要自己定义梯度更新函数
        # 记录误差
        train_loss += loss.item()
    print('epoch: {}, Train Loss: {:.6f}'
          .format(e, train_loss / len(train_data)))
end = time.time() # 计时结束
print('使用时间: {:.5f} s'.format(end - start))

epoch: 0, Train Loss: 0.738046
epoch: 1, Train Loss: 0.365909
epoch: 2, Train Loss: 0.320864
epoch: 3, Train Loss: 0.294309
epoch: 4, Train Loss: 0.273063
使用时间: 18.67952 s

参考：PyTorch中文手册

AutoFerry

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
深度学习（一）优化算法之随机梯度下降法（SGD）详解

优化算法1.SGD随机梯度下降法：θi+1=θi−η∇L(θ) \theta_{i+1} = \theta_i - \eta \nabla L(\theta)θi+1=θi−η∇L(θ)import numpy as npimport torchfrom torchvision.datasets import MNIST # 导入 pytorch 内置的 mnist 数据from torch.utils.data import DataLoaderfrom torch import nn
复制链接

扫一扫