05—《动手学深度学习——Pytorch版》—线性回归


前言

回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。 在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。

在机器学习领域中的大多数任务通常都与预测(prediction)有关。 当我们想预测一个数值时,就会涉及到回归问题。 常见的例子包括:预测价格(房屋、股票等)、预测住院时间(针对住院病人等)、 预测需求(零售销量等)。 但不是所有的预测都是回归问题。


房价预测模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


基础优化算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


线性回归的从零开始实现

在了解线性回归的关键思想之后,我们可以开始通过代码来动手实现线性回归了。 在这一节中,我们将从零开始实现整个方法, 包括数据流水线、模型、损失函数和小批量随机梯度下降优化器。 虽然现代的深度学习框架几乎可以自动化地进行所有这些工作,但从零开始实现可以确保我们真正知道自己在做什么。 同时,了解更细致的工作原理将方便我们自定义模型、自定义层或自定义损失函数。 在这一节中,我们将只使用张量和自动求导。 在之后的章节中,我们会充分利用深度学习框架的优势,介绍更简洁的实现方式。

%matplotlib inline   # 在jupyter中将图嵌入到代码中
import random
import torch
from d2l import torch as d2l

生成数据集

在这里插入图片描述

def synthetic_data(w, b, num_examples):  #@save
    """生成y=Xw+b+噪声"""
    X = torch.normal(0, 1, (num_examples, len(w)))  # 生成均值为0,标准差为1的随机数,大小为num_examples*len(w)(n个样本*w的长度)
    y = torch.matmul(X, w) + b  # matmul表示矩阵乘法==torch.mm,这里的结果是n*1,b是一个标量
    y += torch.normal(0, 0.01, y.shape)  # 生成噪音
    return X, y.reshape(-1,1)  # 将y的形状变为n*1,这里本来y是一个行向量,即本质上是一个一维行向量,这里变为了二维列向量

true_w = torch.tensor([2, -3.4])  # 这里true_w是一个长度为1的张量(1维)
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)

我们可以输出features, labels,看一下他们的样子
在这里插入图片描述
注意,features中的每一行都包含一个二维数据样本, labels中的每一行都包含一维标签值(一个标量)。


通过生成第二个特征features[:, 1]和labels的散点图, 可以直观观察到两者之间的线性关系。
在这里插入图片描述


读取数据集

回想一下,训练模型时要对数据集进行遍历,每次抽取一小批量样本,并使用它们来更新我们的模型。 由于这个过程是训练机器学习算法的基础,所以有必要定义一个函数, 该函数能打乱数据集中的样本并以小批量方式获取数据。

在下面的代码中,我们定义一个data_iter函数, 该函数接收批量大小、特征矩阵和标签向量作为输入,生成大小为batch_size的小批量。 每个小批量包含一组特征和标签。

# 将数据集拆分为批量大小为batch_size的数据
def data_iter(batch_size, features, labels):  # 传入批量大小,特征与标签
    num_examples = len(features)  # 取出特征的长度,这里是1000
    indices = list(range(num_examples))  # 生成0-999的列表,作为索引
    # 这些样本是随机读取的,没有特定的顺序
    random.shuffle(indices)  # 将0-999打乱,保证取出的batch_size数据集是随机的
    for i in range(0, num_examples, batch_size):  # 从0取到999,每一跳为一个batch_size,保证截取的数据集正好是一个batch_size
        batch_indices = torch.tensor(indices[i: min(i + batch_size, num_examples)])  # 将indices列表截取一个batch_size作为索引,为了保证最后一个截取片段不足batch_size大小,所以这里取最小处理
        yield features[batch_indices], labels[batch_indices]  # yield循环迭代返回,即每一轮返回一个batch_size

通常,我们利用GPU并行运算的优势,处理合理大小的“小批量”。 每个样本都可以并行地进行模型计算,且每个样本损失函数的梯度也可以被并行计算。 GPU可以在处理几百个样本时,所花费的时间不比处理一个样本时多太多。

我们直观感受一下小批量运算:读取第一个小批量数据样本并打印。 每个批量的特征维度显示批量大小和输入特征数。 同样的,批量的标签形状与batch_size相等。
在这里插入图片描述
当我们运行迭代时,我们会连续地获得不同的小批量,直至遍历完整个数据集。 上面实现的迭代对教学来说很好,但它的执行效率很低,可能会在实际问题上陷入麻烦。 例如,它要求我们将所有数据加载到内存中,并执行大量的随机内存访问。 在深度学习框架中实现的内置迭代器效率要高得多, 它可以处理存储在文件中的数据和数据流提供的数据。


初始化模型参数

在我们开始用小批量随机梯度下降优化我们的模型参数之前, 我们需要先有一些参数。 在下面的代码中,我们通过从均值为0、标准差为0.01的正态分布中采样随机数来初始化权重, 并将偏置初始化为0。
在这里插入图片描述
在初始化参数之后,我们的任务是更新这些参数,直到这些参数足够拟合我们的数据。 每次更新都需要计算损失函数关于模型参数的梯度。 有了这个梯度,我们就可以向减小损失的方向更新每个参数。 因为手动计算梯度很枯燥而且容易出错,所以没有人会手动计算梯度。


定义模型

接下来,我们必须定义模型,将模型的输入和参数同模型的输出关联起来。 回想一下,要计算线性模型的输出, 我们只需计算输入特征X和模型权重w的矩阵-向量乘法后加上偏置b。 注意,上面的Xw是一个向量,而b是一个标量。根据广播机制:当我们用一个向量加一个标量时,标量会被加到向量的每个分量上。

def linreg(X, w, b):  
    """线性回归模型"""
    return torch.matmul(X, w) + b

定义损失函数

因为需要计算损失函数的梯度,所以我们应该先定义损失函数。 这里我们使用平方损失函数。 在实现中,我们需要将真实值y的形状转换为和预测值y_hat的形状相同。

def squared_loss(y_hat, y): 
    """均方损失"""
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2

定义优化算法

在每一步中,使用从数据集中随机抽取的一个小批量,然后根据参数计算损失的梯度。 接下来,朝着减少损失的方向更新我们的参数。 下面的函数实现小批量随机梯度下降更新。 该函数接受模型参数集合、学习速率和批量大小作为输入。每 一步更新的大小由学习速率lr决定。 因为我们计算的损失是一个批量样本的总和,所以我们用批量大小(batch_size) 来规范化步长,这样步长大小就不会取决于我们对批量大小的选择。

def sgd(params, lr, batch_size):  #给定所有参数,给定学习率,batch_size
    """小批量随机梯度下降"""
    with torch.no_grad():  # 优化算法里不需要计算梯度,因为这里仅仅只是将原来的梯度进行更新
        for param in params:  # 对每一个参数,可能是w也可能是b
            param -= lr * param.grad / batch_size  # 如w = w - lr*w.grad/batch_size(上面的损失函数没有求均值,在这里求)
            param.grad.zero_()  # 梯度清零,防止参与下一轮

训练

现在我们已经准备好了模型训练所有需要的要素,可以实现主要的训练过程部分了。理解这段代码至关重要,因为从事深度学习后, 相同的训练过程几乎一遍又一遍地出现。 在每次迭代中,我们读取一小批量训练样本,并通过我们的模型来获得一组预测。 计算完损失后,我们开始反向传播,存储每个参数的梯度。 最后,我们调用优化算法sgd来更新模型参数。
在这里插入图片描述

lr = 0.03  # 学习率
num_epochs = 3  # 训练轮数
net = linreg  # 网络就用线性函数
loss = squared_loss  # loss就是均方损失函数

for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):  # 每次拿出一个批量大小的X,y
        l = loss(net(X, w, b), y)  # X和y的小批量损失
        # 因为l形状是(batch_size,1),而不是一个标量。l中的所有元素被加到一起,
        # 并以此计算关于[w,b]的梯度
        l.sum().backward()  # 反向传播
        sgd([w, b], lr, batch_size)  # 使用参数的梯度更新参数
    with torch.no_grad():
        train_l = loss(net(features, w, b), labels)  # 将预测的y与真实的labels做损失
        print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')

因为我们使用的是自己合成的数据集,所以我们知道真正的参数是什么。 因此,我们可以通过比较真实参数和通过训练学到的参数来评估训练的成功程度。 事实上,真实参数和通过训练学到的参数确实非常接近。
在这里插入图片描述
注意,我们不应该想当然地认为我们能够完美地求解参数。 在机器学习中,我们通常不太关心恢复真正的参数,而更关心如何高度准确预测参数。 幸运的是,即使是在复杂的优化问题上,随机梯度下降通常也能找到非常好的解。 其中一个原因是,在深度网络中存在许多参数组合能够实现高度精确的预测。


小结

  • 我们学习了深度网络是如何实现和优化的。在这一过程中只使用张量和自动微分,不需要定义层或复杂的优化器。
  • 这一节只触及到了表面知识。在下面的部分中,我们将基于刚刚介绍的概念描述其他模型,并学习如何更简洁地实现其他模型。

线性回归的简洁实现

生成数据集

import numpy as np
import torch
from torch.utils import data
from d2l import torch as d2l

def synthetic_data(w, b, num_examples):  #@save
    """生成y=Xw+b+噪声"""
    X = torch.normal(0, 1, (num_examples, len(w)))  # 生成均值为0,标准差为1的随机数,大小为num_examples*len(w)(n个样本*w的长度)
    y = torch.matmul(X, w) + b  # matmul表示矩阵乘法==torch.mm,这里的结果是n*1,b是一个标量
    y += torch.normal(0, 0.01, y.shape)  # 生成噪音
    return X, y.reshape(-1,1)  # 将y的形状变为n*1,这里本来y是一个行向量,即本质上是一个一维行向量,这里变为了二维列向量

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = d2l.synthetic_data(true_w, true_b, 1000)

生成的数据集结果为:
在这里插入图片描述


读取数据集

我们可以调用框架中现有的API来读取数据。 我们将features和labels作为API的参数传递,并通过数据迭代器指定batch_size。 此外,布尔值is_train表示是否希望数据迭代器对象在每个迭代周期内打乱数据。

def load_array(data_arrays, batch_size, is_train=True):  #@save
    """构造一个PyTorch数据迭代器"""
    dataset = data.TensorDataset(*data_arrays)  # TensorDataset将data_arrays中的数据每次取出一组作为dataset
    return data.DataLoader(dataset, batch_size, shuffle=is_train)  # 加载数据集

batch_size = 10
data_iter = load_array((features, labels), batch_size)

为了验证是否正常工作,我们读取并打印第一个小批量样本。 ,这里我们使用iter构造Python迭代器,并使用next从迭代器中获取第一项。
在这里插入图片描述


定义模型

我们首先定义一个模型变量net,它是一个Sequential类的实例。Sequential类将多个层串联在一起。 当给定输入数据时,Sequential实例将数据传入到第一层, 然后将第一层的输出作为第二层的输入,以此类推。 在下面的例子中,我们的模型只包含一个层,因此实际上不需要Sequential。 但是由于以后几乎所有的模型都是多层的,在这里使用Sequential会让你熟悉“标准的流水线”。
单层网络架构, 这一单层被称为全连接层(fully-connected layer), 因为它的每一个输入都通过矩阵-向量乘法得到它的每个输出。全连接层在Linear类中定义。 值得注意的是,我们将两个参数传递到nn.Linear中。 第一个指定输入特征形状,即2,第二个指定输出特征形状,输出特征形状为单个标量,因此为1。

# nn是神经网络的缩写
from torch import nn
net = nn.Sequential(nn.Linear(2, 1))  # 线性层神经网络,输入维度为2,输出维度为1,Sequential类似于一个list容器,将多个层叠加排列

初始化模型参数

在使用net之前,我们需要初始化模型参数。 如在线性回归模型中的权重和偏置。 深度学习框架通常有预定义的方法来初始化参数。 在这里,我们指定每个权重参数应该从均值为0、标准差为0.01的正态分布中随机采样, 偏置参数将初始化为零。
正如我们在构造nn.Linear时指定输入和输出尺寸一样, 现在我们能直接访问参数以设定它们的初始值。 我们通过net[0]选择网络中的第一个图层, 然后使用weight.data和bias.data方法访问参数。 我们还可以使用替换方法normal_和fill_来重写参数值。
在这里插入图片描述


定义损失函数

计算均方误差使用的是MSELoss类,也称为平方 L 2 L_2 L2范数。 默认情况下,它返回所有样本损失的平均值。

loss = nn.MSELoss()  # 均方差损失函数

定义优化算法

小批量随机梯度下降算法是一种优化神经网络的标准工具, PyTorch在optim模块中实现了该算法的许多变种。 当我们实例化一个SGD实例时,我们要指定优化的参数 (可通过net.parameters()从我们的模型中获得)以及优化算法所需的超参数字典。 小批量随机梯度下降只需要设置lr值,这里设置为0.03。

# 优化器,parameters()表示是传入权重参数,这个方法可以直接求出所有需要求梯度的权重,学习率为0.03
trainer = torch.optim.SGD(net.parameters(), lr=0.03)

训练

在这里插入图片描述
在这里插入图片描述


下面我们比较生成数据集的真实参数和通过有限数据训练获得的模型参数。 要访问参数,我们首先从net访问所需的层,然后读取该层的权重和偏置。 正如在从零开始实现中一样,我们估计得到的参数与生成数据的真实参数非常接近。
在这里插入图片描述


小结

  • 我们可以使用PyTorch的高级API更简洁地实现模型。
  • 在PyTorch中,data模块提供了数据处理工具,nn模块定义了大量的神经网络层和常见损失函数。
  • 我们可以通过_结尾的方法将参数替换,从而初始化参数。
  • 24
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值