1.问题描述:
已知三组学习时长和最终得分的数据,建立数学模型,预测学习时长为4小时的最终得分
2.随机梯度下降,pytorch自动求导 反向传播:
x:学习时长 y:最终得分
模型:采用线性回归模型y_pred=wx,求解参数w。
损失函数:loss=(y_pred-y)**2
这里和梯度下降算法的区别是:梯度下降算法cost=sum((y_pred-y)**2)/n,计算了所有样本点的loss,求和做的平均,再求cost关于w的偏导数作为梯度,当w去某个值时梯度等于0,因为w的更新公式是w=w-learning_rate*梯度,所以w保持不变,cost陷入鞍点,无法到达局部最优,而随机梯度下降loss=(y_pred-y)**2,随机选择了一对样本,计算loss关于w的偏导数作为梯度,这样做的好处是,虽然总的cost的梯度等于0,但是由于只采用了随机的一对样本,在鞍点时梯度有可能不等于0,这就有可能走出鞍点,到达局部最优。
其中:y_pred为穷举不同w时x对应的预测输出,loss最小时参数w最优。loss要对w求导,故采用pytorch自动求导机制进行反向传播。
3.相关知识:
图中:loss=(y_pred-y)**2,梯度是目标函数关于w的偏导数,w按照以上公式更新,因为只对一对样本求loss,所以不用求和再平均。
这段代码里,loss自己写函数算,梯度采用pytorch自动求导机制,保存在tensor数据.grad中,故不用单独写函数,只需要调用.backward()就能实现求梯度。
4.python代码:
import random
import torch
import numpy as np
import matplotlib.pyplot as plt
# 准备数据
x_data = [1, 2, 3]
y_data = [2, 4, 6]
# 初始化权值,tensor类型,要求保存梯度,用于反向传播,bp
w = torch.tensor([1.0])
w.requires_grad = True
# 初始化学习速率
learning_rate = 0.01
# 构建计算图
# y_pred=w*x
# loss=(y_pred-y)**2
def forward(x):
return w * x
# 计算loss,返回值为tensor类型
def loss_cal(x, y):
y_pred = forward(x)
return (y_pred - y) ** 2
# 创建空列表,用于保存epoch迭代次数/w权值/loss损失函数值
epoch_list = []
w_list = []
loss_list = []
for epoch in range(100):
# 保存epoch
epoch_list.append(epoch)
# 保存w,因为w是tensor类型,取.data
w_list.append(w.data)
# 产生一个0-2的随机数,用于随机选择下x_data,y_data中的一对样本
random_number = random.randint(0, 2)
x = x_data[random_number]
y = y_data[random_number]
# 前向计算loss
loss = loss_cal(x, y)
# 反向传播
loss.backward()
# 保存loss,因为loss是tensor类型,取.data
loss_list.append(loss.data)
# 权值更新
w.data = w.data - learning_rate * w.grad.data
w.grad.data.zero_()
# 画出w,loss随着epoch的变化趋势线
plt.figure(1)
plt.subplot(2,1,1)
plt.plot(epoch_list, loss_list)
plt.ylabel("loss")
plt.subplot(2,1,2)
plt.plot(epoch_list, w_list)
plt.ylabel("w")
plt.xlabel("epoch")
plt.show()
5.可视化结果:
可以看到,迭代次数增加,w=2时,loss=0。
6.以上均为个人学习pytorch基础入门中的基础,浅做记录,如有错误,请各位大佬批评指正!
7.关于问题描述和原理的部分图片参考刘老师的视频课件,本文也是课后作业的一部分,特此附上视频链接,《PyTorch深度学习实践》完结合集_哔哩哔哩_bilibili,希望大家都有所进步!