李沐深度学习-03-线性回归与线性回归从零实现(较难)

只想下课

已于 2024-01-27 18:47:10 修改

阅读量321

点赞数 6

文章标签：线性回归回归深度学习

于 2024-01-27 18:46:29 首次发布

本文链接：https://blog.csdn.net/m0_57296737/article/details/135886722

版权

线性回归

线性回归可以看成单层神经网络，是唯一有最优解的模型(具有显示解)，因为其损失函数为凸函数

基础优化方法

1.梯度下降算法，注意两个参数即偏导值(沿梯度方向)和学习率(学习率即每次沿着梯度走多远，即步长，不可过大或者过小，学习率过大会导致震荡，过小会导致震荡)，多次迭代直至收敛(可以画图来看)

2.小批量随机梯度下降（深度学习默认的求解方法）：通常使用这种方法的原因是在整个训练集（较大）上算梯度太贵，我们可以随机采样b个样本，来估算近似损失，b不可以过大或者过小

#线性回归的从零开始实现
import random
import torch
from d2l import torch as d2l

#构造一个数据集
def synthetic_data(w, b, num_examples):  #@save
    """生成y=Xw+b+噪声"""
    #均值为0，方差为1的一个随机数，n个样本，列数为w的长度
    X = torch.normal(0, 1, (num_examples, len(w)))
    #+b采用了广播计算
    y = torch.matmul(X, w) + b
    #随机噪音
    y += torch.normal(0, 0.01, y.shape)
    #reshape中-1表示自动计算
    return X, y.reshape((-1, 1))
#w
true_w = torch.tensor([2, -3.4])
#b
true_b = 4.2
# features中的每一行都包含一个二维数据样本， labels中的每一行都包含一维标签值（一个标量）
#以房屋售价为例子，label就是真实售价，feature就是预测label的两个因素
features, labels = synthetic_data(true_w, true_b, 1000)

print('features:', features[0],'\nlabel:', labels[0])

features: tensor([ 1.1240, -0.4830]) 
label: tensor([8.0853])

d2l.set_figsize()
d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1);

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

# 训练模型时要对数据集进行遍历，每次抽取一小批量样本，并使用它们来更新我们的模型。 
# 有必要定义一个函数， 该函数能打乱数据集中的样本并以小批量方式获取数据。
# 函数接收批量大小、特征矩阵和标签向量作为输入，生成大小为batch_size的小批量。 每个小批量包含一组特征和标签。
def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    # 这些样本是随机读取的，没有特定的顺序
    random.shuffle(indices)
    for i in range(0, num_examples, batch_size):
        batch_indices = torch.tensor(
            #可能会超出size所以最后取一次min
            indices[i: min(i + batch_size, num_examples)])
        #yield与return的区别见https://blog.csdn.net/mieleizhi0522/article/details/82142856 
        yield features[batch_indices], labels[batch_indices]

batch_size = 10

for X, y in data_iter(batch_size, features, labels):
    print(X, '\n', y)
    break

tensor([[-0.2326, -0.3711],
        [-0.7580, -0.3818],
        [ 0.5573,  2.0393],
        [-2.2065,  0.3653],
        [ 0.3505,  0.7303],
        [ 1.1057, -2.0941],
        [-0.5950,  0.4970],
        [-2.0543,  0.1373],
        [ 0.8044,  0.0609],
        [ 0.4763,  0.9602]]) 
 tensor([[ 5.0043],
        [ 3.9848],
        [-1.6100],
        [-1.4476],
        [ 2.4214],
        [13.5422],
        [ 1.3198],
        [-0.3736],
        [ 5.5959],
        [ 1.8962]])

#定义初始化模型参数
#requires_grad=True表示要求梯度
w=torch.normal(0,0.01,size=(2,1),requires_grad=True)
b=torch.zeros(1,requires_grad=True)

#定义模型
def linreg(X,w,b):
    #线性回归模型
    return torch.matmul(X,w)+b

#定义损失函数
def squared_loss(y_hat, y):  #@save
    """均方损失"""
    #未做均值处理
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2

#定义优化算法
#params：list参数列表 lr：学习率 
def sgd(params, lr, batch_size):  #@save
    """小批量随机梯度下降"""
    #为什么？
    # 在 PyTorch 中，当我们执行一些不需要梯度计算的操作时，我们可以通过将代码包裹在 torch.no_grad() 上下文管理器中来减少内存的消耗并提高代码执行效率。
    with torch.no_grad():
        for param in params:
            #公式，由于损失函数未求均值则除batch_size
            param -= lr * param.grad / batch_size
            param.grad.zero_()

#模型训练
#方便替换
#可以尝试调整次数和学习率大小来进行实验
lr = 0.03
#扫三次，观察三次的loss
num_epochs = 3
net = linreg
loss = squared_loss

for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):
        l = loss(net(X, w, b), y)  # X和y的小批量损失
        # 因为l形状是(batch_size,1)，而不是一个标量。l中的所有元素被加到一起，
        # 并以此计算关于[w,b]的梯度
        #解释见帖子https://zhuanlan.zhihu.com/p/604681583
        l.sum().backward()
        sgd([w, b], lr, batch_size)  # 使用参数的梯度更新参数
    with torch.no_grad():
        train_l = loss(net(features, w, b), labels)
        print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')

epoch 1, loss 0.034302
epoch 2, loss 0.000123
epoch 3, loss 0.000052

#看看误差程度
print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
print(f'b的估计误差: {true_b - b}')

w的估计误差: tensor([-1.2112e-04, -4.6015e-05], grad_fn=<SubBackward0>)
b的估计误差: tensor([0.0003], grad_fn=<RsubBackward1>)

只想下课

关注

6
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李沐深度学习-03-线性回归与线性回归从零实现(较难)

1.梯度下降算法，注意两个参数即偏导值(沿梯度方向)和学习率(学习率即每次沿着梯度走多远，即步长，不可过大或者过小，学习率过大会导致震荡，过小会导致震荡)，多次迭代直至收敛(可以画图来看)2.小批量随机梯度下降（深度学习默认的求解方法）：通常使用这种方法的原因是在整个训练集（较大）上算梯度太贵，我们可以随机采样b个样本，来估算近似损失，b不可以过大或者过小。线性回归可以看成单层神经网络，是唯一有最优解的模型(具有显示解)，因为其损失函数为凸函数。
复制链接

扫一扫