动手深度学习task1——线性回归、softmax、多层感知机

最新推荐文章于 2020-08-18 22:11:40 发布

VIP文章路啦路

最新推荐文章于 2020-08-18 22:11:40 发布

阅读量186

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_42517469/article/details/104316073

版权

1.pytorch从零实现线性回归

https://nbviewer.jupyter.org/github/LuuuLiu/–pytorch/blob/master/linear.ipynb

2.遇到的问题

optimizer.step() 和loss.backward()

首先需要明确optimzier优化器的作用, 形象地来说，优化器就是需要根据网络反向传播的梯度信息来更新网络的参数，以起到降低loss函数计算值的作用，这也是机器学习里面最一般的方法论。

从优化器的作用出发，要使得优化器能够起作用，需要主要两个东西：

优化器需要知道当前的网络或者别的什么模型的参数空间，这也就是为什么在训练文件中，正式开始训练之前需要将网络的参数放到优化器里面，比如使用pytorch的话总会出现类似如下的代码：

optimizer_G = Adam(model_G.parameters(), lr=train_c.lr_G)   # lr 使用的是初始lr
optimizer_D = Adam(model_D.parameters(), lr=train_c.lr_D)

需要知道反向传播的梯度信息，我们还是从代码入手，如下所示是Pytorch 中SGD优化算法的step()函数具体写法，具体SGD的写法放在参考部分

def step(self, closure=None):
        """Performs a single optimization step.
        Arguments:
            closure (callable, optional): A closure that reevaluates the model
                and returns the loss.
        """
        loss = None
        if closure is not None:
            loss = closure()
 
        for group in self.param_groups:
            weight_decay = group['weight_decay']
            momentum = group['momentum']
            dampening = group['dampening']
            nesterov = group['nesterov']
 
            for p in group['params']:
                if p.grad is None:
                    continue
                d_p = p.grad.data
                if weight_decay != 0:
                    d_p.add_(weight_decay, p.data)
                if momentum != 0:
                    param_state = self.state[p]
                    if 'momentum_buffer' not in param_state:
                        buf = param_state['momentum_buffer'] = d_p.clone()
                    else:
                        buf = param_state['momentum_buffer']
                        buf.mul_(momentum).add_(1 - dampening, d_p)
                    if nesterov:
                        d_p = d_p.add(momentum, buf)
                    else:
                        d_p = buf
 
                p.data.add_(-group['lr'], d_p)
 
        return loss

从上面的代码可以看到step这个函数使用的是参数空间(param_groups)中的grad,也就是当前参数空间对应的梯度，这也就解释了为什么optimzier使用之前需要zero清零一下，因为如果不清零，那么使用的这个grad就得同上一个mini-batch有关，这不是我们需要的结果。再回过头来看，我们知道optimizer更新参数空间需要基于反向梯度，因此，当调用optimizer.step()的时候应当是loss.backward()的时候（loss.backward()的具体运算过程可以参看Pytorch 入门），这也就是经常会碰到,如下情况

total_loss.backward()
optimizer_G.step()

loss.backward()在前，然后跟一个step。

那么为什么optimizer.step()需要放在每一个batch训练中，而不是epoch训练中，这是因为现在的mini-batch训练模式是假定每一个训练集就只有mini-batch这样大，因此实际上可以将每一次mini-batch看做是一次训练，一次训练更新一次参数空间，因而optimizer.step()放在这里。

scheduler.step（）按照Pytorch的定义是用来更新优化器的学习率的，一般是按照epoch为单位进行更换，即多少个epoch后更换一次学习率，因而scheduler.step()放在epoch这个大循环下。

optimizer.step()和scheduler.step()的区别

optimizer.step()通常用在每个mini-batch之中，而scheduler.step()通常用在epoch里面,但是不绝对，可以根据具体的需求来做。只有用了optimizer.step()，模型才会更新，而scheduler.step()是对lr进行调整。通常我们有

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum = 0.9)
scheduler = lr_scheduler.StepLR(optimizer, step_size = 100, gamma = 0.1)
model = net.train(model, loss_function, optimizer, scheduler, num_epochs = 100)

在scheduler的step_size表示scheduler.step()每调用step_size次，对应的学习率就会按照策略调整一次。所以如果scheduler.step()是放在mini-batch里面，那么step_size指的是经过这么多次迭代，学习率改变一次。

3.课后题

在这里插入图片描述

softmax与分类模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lXrlQNpD-1581673070121)(attachment:image.png)]

torchvision包主要用来构建计算机视觉模型。

1.torchvision.datasets: 一些加载数据的函数及常用的数据集接口

2.torchvision.models:包含常用的模型结构（包括预训练模型），例如AlexNet、VGG、ResNet等

3.torchvision.transforms:常见的图片变换，例如裁剪、旋转等

4.torchvision.utils:其他的一些有用的方法

# 获取数据集
import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import time
import sys
sys.path.append("..")

获取Fashion-MNIST训练集和读取数据

我们通过torchvision的torchvision.datasets来下载这个数据集。第一次调用时会自动从网上获取数据。我们通过参数train来指定获取训练数据集或测试数据集。

另外我们指定了参数transform = transforms.ToTensor()使所有数据转换为Tensor。如果不进行转换则返回的是PIL图片。transforms.ToTensor()将尺寸为（HWC）且数据位于[0,225]的PIL图片或者数据类型为np.uint8的NumPy数组转换为尺寸为（CHW)且数据类型为torch.float32且位于[0.0,1.0]的Tensor。

mnist_train = torchvision.datasets.FashionMNIST(root='~/Datasets/FashionMNIST', train=True, download=True, transform=transforms.ToTensor())
mnist_test = torchvision.datasets.FashionMNIST(root='~/Datasets/FashionMNIST', train=False, download=True, transform=transforms.ToTensor())

print(type(mnist_train))
print(len(mnist_train),len(mnist_test))

<class 'torchvision.datasets.mnist.FashionMNIST'>
60000 10000

Fashion-MNIST中一共包括了10个类别，分别为t-shirt（T恤）、trouser（裤子）、pullover（套衫）、dress（连衣裙）、coat（外套）、sandal（凉鞋）、shirt（衬衫）、sneaker（运动鞋）、bag（包）和ankle boot（短靴）。以下函数可以将数值标签转成相应的文本标签。

def get_fashion_mnist_labels(labels):
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

# 定义一个可以在一行里画出多张图像和对应标签的函数。
def</

最低0.47元/天解锁文章

路啦路

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
动手深度学习task1——线性回归、softmax、多层感知机

softmax与分类模型[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lXrlQNpD-1581673070121)(attachment:image.png)]torchvision包主要用来构建计算机视觉模型。1.torchvision.datasets: 一些加载数据的函数及常用的数据集接口2.torchvision.models:包含常用的模型结构（...
复制链接

扫一扫