线性回归
线性回归可以看成单层神经网络,是唯一有最优解的模型(具有显示解),因为其损失函数为凸函数
基础优化方法
1.梯度下降算法,注意两个参数即偏导值(沿梯度方向)和学习率(学习率即每次沿着梯度走多远,即步长,不可过大或者过小,学习率过大会导致震荡,过小会导致震荡),多次迭代直至收敛(可以画图来看)
2.小批量随机梯度下降(深度学习默认的求解方法):通常使用这种方法的原因是在整个训练集(较大)上算梯度太贵,我们可以随机采样b个样本,来估算近似损失,b不可以过大或者过小
#线性回归的从零开始实现
import random
import torch
from d2l import torch as d2l
#构造一个数据集
def synthetic_data(w, b, num_examples): #@save
"""生成y=Xw+b+噪声"""
#均值为0,方差为1的一个随机数,n个样本,列数为w的长度
X = torch.normal(0, 1, (num_examples, len(w)))
#+b采用了广播计算
y = torch.matmul(X, w) + b
#随机噪音
y += torch.normal(0, 0.01, y.shape)
#reshape中-1表示自动计算
return X, y.reshape((-1, 1))
#w
true_w = torch.tensor([2, -3.4])
#b
true_b = 4.2
# features中的每一行都包含一个二维数据样本, labels中的每一行都包含一维标签值(一个标量)
#以房屋售价为例子,label就是真实售价,feature就是预测label的两个因素
features, labels = synthetic_data(true_w, true_b, 1000)
print('features:', features[0],'\nlabel:', labels[0])
features: tensor([ 1.1240, -0.4830])
label: tensor([8.0853])
d2l.set_figsize()
d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1);
# 训练模型时要对数据集进行遍历,每次抽取一小批量样本,并使用它们来更新我们的模型。
# 有必要定义一个函数, 该函数能打乱数据集中的样本并以小批量方式获取数据。
# 函数接收批量大小、特征矩阵和标签向量作为输入,生成大小为batch_size的小批量。 每个小批量包含一组特征和标签。
def data_iter(batch_size, features, labels):
num_examples = len(features)
indices = list(range(num_examples))
# 这些样本是随机读取的,没有特定的顺序
random.shuffle(indices)
for i in range(0, num_examples, batch_size):
batch_indices = torch.tensor(
#可能会超出size所以最后取一次min
indices[i: min(i + batch_size, num_examples)])
#yield与return的区别见https://blog.csdn.net/mieleizhi0522/article/details/82142856
yield features[batch_indices], labels[batch_indices]
batch_size = 10
for X, y in data_iter(batch_size, features, labels):
print(X, '\n', y)
break
tensor([[-0.2326, -0.3711],
[-0.7580, -0.3818],
[ 0.5573, 2.0393],
[-2.2065, 0.3653],
[ 0.3505, 0.7303],
[ 1.1057, -2.0941],
[-0.5950, 0.4970],
[-2.0543, 0.1373],
[ 0.8044, 0.0609],
[ 0.4763, 0.9602]])
tensor([[ 5.0043],
[ 3.9848],
[-1.6100],
[-1.4476],
[ 2.4214],
[13.5422],
[ 1.3198],
[-0.3736],
[ 5.5959],
[ 1.8962]])
#定义初始化模型参数
#requires_grad=True表示要求梯度
w=torch.normal(0,0.01,size=(2,1),requires_grad=True)
b=torch.zeros(1,requires_grad=True)
#定义模型
def linreg(X,w,b):
#线性回归模型
return torch.matmul(X,w)+b
#定义损失函数
def squared_loss(y_hat, y): #@save
"""均方损失"""
#未做均值处理
return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
#定义优化算法
#params:list参数列表 lr:学习率
def sgd(params, lr, batch_size): #@save
"""小批量随机梯度下降"""
#为什么?
# 在 PyTorch 中,当我们执行一些不需要梯度计算的操作时,我们可以通过将代码包裹在 torch.no_grad() 上下文管理器中来减少内存的消耗并提高代码执行效率。
with torch.no_grad():
for param in params:
#公式,由于损失函数未求均值则除batch_size
param -= lr * param.grad / batch_size
param.grad.zero_()
#模型训练
#方便替换
#可以尝试调整次数和学习率大小来进行实验
lr = 0.03
#扫三次,观察三次的loss
num_epochs = 3
net = linreg
loss = squared_loss
for epoch in range(num_epochs):
for X, y in data_iter(batch_size, features, labels):
l = loss(net(X, w, b), y) # X和y的小批量损失
# 因为l形状是(batch_size,1),而不是一个标量。l中的所有元素被加到一起,
# 并以此计算关于[w,b]的梯度
#解释见帖子https://zhuanlan.zhihu.com/p/604681583
l.sum().backward()
sgd([w, b], lr, batch_size) # 使用参数的梯度更新参数
with torch.no_grad():
train_l = loss(net(features, w, b), labels)
print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')
epoch 1, loss 0.034302
epoch 2, loss 0.000123
epoch 3, loss 0.000052
#看看误差程度
print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
print(f'b的估计误差: {true_b - b}')
w的估计误差: tensor([-1.2112e-04, -4.6015e-05], grad_fn=<SubBackward0>)
b的估计误差: tensor([0.0003], grad_fn=<RsubBackward1>)