利用torch自动求导机制理解反向传播

BP算法

反向传播算法,又称BP算法,它将输出层的误差反向逐层传播,通过计算偏导数来更新网络参数使得误差函数最小化。

前言

本文通过torch的自动求导机制验证反向传播的过程,并通过梯度下降法进行验证。

在可视化的过程中,突然发现在利用pytorch进行模型训练的时候batch size对损失值的影响,有人说在显存够大的情况尽可能的让batch size大一点,也许从损失值的可视化中可以看到原因。

2024.3.8更新
对于batch size的相关问题参考 神经网络的训练过程这篇文章也许可以解释本文loss图像的变化。解释总结如下:
1)batch size变大更新次数少,但是每一次迭代考虑的样本更多了。每次迭代考虑的样本大了以后,梯度优化的波动变小,下降更平滑。
2)batch size很小梯度会产生频繁震荡,不容易收敛。正常情况下,适当增大batch size,应该是更容易收敛。
3)如果batch size太大,不同batch的梯度方向变化太小,容易陷入局部极小值,自然收敛就慢。

目标函数为
y ^ = X ⋅ w + b l o s s = 1 n ∑ i = 1 n ( y ( i ) − y ^ ( i ) ) 2 X n × m 样本集, w m × 1 待求权重, b 1 × 1 待求偏置 \begin{aligned} & \hat{y} = X\cdot w +b \\ & \\ & loss = \dfrac{1}{n} \sum_{i=1}^{n} (y^{(i)}-\hat{y}^{(i)})^{2} \\ \\ & X_{n \times m} 样本集,w_{m\times 1}待求权重,b_{1 \times 1}待求偏置 \end{aligned} y^=Xw+bloss=n1i=1n(y(i)y^(i))2Xn×m样本集,wm×1待求权重,b1×1待求偏置

设置权重和偏置

w_0 = np.array([1.0, 2.0, 3.0])
b_0 = np.array([2])

利用torch的反向求导机制和梯度下降法来反向求解这两个参数。

torch实现

import torch
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(123)
x_data_ = np.random.rand(100, 3)
x_data = torch.from_numpy(x_data_)

w_0 = np.array([1.0, 2.0, 3.0])
b_0 = np.array([2.0])
y_data_ = x_data_.dot(w_0) + b_0
y_data = torch.from_numpy(y_data_)

# 创建tensor节点,需要更新的权重
w = torch.ones(3).double()
b = torch.zeros(1).double()
# 需要计算梯度
w.requires_grad = True
b.requires_grad = True
epochs = 10
learn_rate = 0.01
# 记录每一个样本的损失值便于可视化
loss_list = []
for epoch in range(epochs):
    # 梯度更新的次数为 epochs*x_data.shape[0]次
    l_sum = 0.0
    for i in range(x_data.shape[0]):
        # 损失函数计算
        y_hat = torch.matmul(x_data[i], w) + b
        l = (y_hat - y_data[i]) ** 2
        # 反向传播计算grad值
        l.backward()
        loss_list.append(l.detach().numpy())
        # 借助pytorch计算的梯度来更新模型参数w和b
        w.data = w.data - learn_rate * w.grad.data
        b.data = b.data - learn_rate * b.grad.data
        # 将当前梯度清零,避免梯度累加
        w.grad.data.zero_()
        b.grad.data.zero_()
print(f"截距: {b}")
print(f"系数: {w}")

plt.plot(range(epochs * x_data.shape[0]), loss_list)
plt.show()

损失函数结果图,损失值大概在400次的迭代基本收敛到0附近。这里仅仅是单个样本的损失值根据梯度去更新权重系数。
在这里插入图片描述

梯度下降法实现

梯度下降法还不是很熟的可以参考这里 批量梯度下降法原理

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(123)
x_data = np.random.rand(100, 3)
w_0 = np.array([1.0, 2.0, 3.0])
b_0 = np.array([2])
y_data = x_data.dot(w_0) + b_0
y_data = y_data.flatten()


# 定义目标函数
def J(theta, X_b, y):
    try:
        y_hat = X_b.dot(theta)
        return np.sum((y - y_hat) ** 2) / len(y)
    except:
        return float('inf')


# 计算梯度
def dJ(theta, X_b, y):
    y_hat = X_b.dot(theta)
    return X_b.T.dot(y_hat - y) * 2. / len(y)


def gradient_descent(X_b, y, initial_theta, eta=0.01, n_iters=1e5, epsilon=1e-18):
    theta = initial_theta
    cur_iter = 0
    loss_list = []
    while cur_iter < n_iters:
        gradient = dJ(theta, X_b, y)
        last_theta = theta
        theta = theta - eta * gradient
        loss_list.append(J(theta, X_b, y))

        if abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon:
            break

        cur_iter += 1

    return theta, loss_list


# 在x_data的第一列加上全1列形成增广矩阵,将截距放在权重的第一个位置
X_b = np.hstack([np.ones((len(x_data), 1)), x_data])
# initial_theta[0]是截距
initial_theta = np.ones(X_b.shape[1])
eta = 0.01
n_iters = 1000
theta, loss_list = gradient_descent(X_b, y_data, initial_theta, eta, n_iters=n_iters)

print(f"截距: {theta[0]}")
print(f"系数: {theta[1:]}")

plt.plot(range(n_iters), loss_list)
plt.show()

损失函数结果图,损失函数的图像比较平滑,gradient_descent函数中while的每一次循环都是所有样本的损失值根据梯度更新权重系数。
在这里插入图片描述

从损失函数的可视化可以看出两种算法的有不一样的地方。这里最大的区别是torch在反向传播的时候是每一个样本计算一个损失,然后根据损失的梯度进行参数更新。

numpy的梯度下降法是根据所有样本计算一个损失,然后根据这个损失计算梯度进行参数更新。

反映在图上就是torch的损失值比较坎坷,梯度下降发就是比较平滑。

这里torch中损失的计算和梯度的更新可以看成是batch _size=1。修改代码将batch _size设置成10及和样本数一致,看一下损失值的图像。

import torch
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(123)
x_data_ = np.random.rand(100, 3)
x_data = torch.from_numpy(x_data_)

w_0 = np.array([1.0, 2.0, 3.0])
b_0 = np.array([2.0])
y_data_ = x_data_.dot(w_0) + b_0
y_data = torch.from_numpy(y_data_)

# 创建tensor节点,需要更新的权重
w = torch.ones(3).double()
b = torch.zeros(1).double()
# 需要计算梯度
w.requires_grad = True
b.requires_grad = True

# 样本训练次数
epochs = 100
# 按批次进行损失计算和更新
batch_size = 10
learn_rate = 0.01
loss_list = []

for epoch in range(epochs):
    # 梯度更新的次数为 epochs*x_data.shape[0]次
    for i in range(int(len(x_data) / batch_size)):
        start = i * batch_size
        end = (i + 1) * batch_size
        # 损失函数计算
        y_hat = torch.matmul(x_data[start:end], w) + b
        l = torch.sum((y_hat - y_data[start:end]) ** 2) / batch_size
        # 反向传播计算grad值
        l.backward()
        loss_list.append(l.detach().numpy())
        # 借助pytorch计算的梯度来更新模型参数w和b
        w.data = w.data - learn_rate * w.grad.data
        b.data = b.data - learn_rate * b.grad.data
        # 将当前梯度清零,避免梯度的累加
        w.grad.data.zero_()
        b.grad.data.zero_()
print(f"截距: {b}")
print(f"系数: {w}")

plt.plot(range(epochs * int(len(x_data) / batch_size)), loss_list)
plt.show()

batch_size = 10的结果
在这里插入图片描述

batch_size = 100的结果
在这里插入图片描述

随着计算损失的batch_size逐渐增大,得到损失函数的图像也越来越平滑。

小结

1)本文主要使用两种方法模拟反向传播的计算过程。

2)可以使用torch的自动求导机制也可以使用梯度下降法实现。

3)batch_size的大小对损失函数的影响。

  • 34
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值