从零开始学Pytorch（第5天）

最新推荐文章于 2024-03-30 13:49:27 发布

hand hands

最新推荐文章于 2024-03-30 13:49:27 发布

阅读量148

点赞数 1

分类专栏：笔记文章标签： python pytorch 人工智能自然语言处理深度学习

本文链接：https://blog.csdn.net/weixin_43319346/article/details/109441913

版权

笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

从零开始学Pytorch（第5天）

前言
一、模块类的构建
- 1. nn.Module
- 2.构建一个线性回归类
二、计算图和自动求导机制
- 1.计算图
- 2.自动求导
总结

前言

今天主要了解和学习Pytorch中的模块类和计算图、自动求导机制

一、模块类的构建

1. nn.Module

Pytorch模型通过继承nn.Module，在类的内部定义子模块实例化，
通过前向计算调用子模块，最后实现深度学习模型的搭建。

import torch.nn as nn

class Model(nn.Module):
    def __init__(self,...): #定义类的初始化函数，...是传入的参数
        super(Model, self).__init__()
  		...#根据传入的参数来定义子模块

    def forward(self,...):
    #定义前向计算的输入参数，...一般是张量或者其他的参数。
        ret                #根据传入的张量和子模块计算返回张量
        return ret

这个基本框架记住之后套用就好。

2.构建一个线性回归类

import torch
import torch.nn as nn

class LinearModel(nn.Module):
    def __init__(self, ndim):
        super(LinearModel, self).__init__()
        self.ndim = ndim
        self.weight = nn.Parameter(torch.randn(ndim, 1))  # 定义权重,这里的nn.Parameter可以理解为将张量转换为可训练的参数类
        self.bias = nn.Parameter(torch.randn(1))  # 定义偏置

    def forward(self, x):
        # y=Wx+b
        return x.mm(self.weight) + self.bias


lm=LinearModel(5)   #初始化一个线性模型实例，特征数为5
x=torch.randn(4,5)  #定义输入，可以理解为mini-batch=4

lm(x)
tensor([[-3.0978],
        [ 4.5808],
        [ 0.2038],
        [-1.6345]], grad_fn=<AddBackward0>)

可以看到，我们要做的就是把计算过程变成代码输入到模型中即可。

二、计算图和自动求导机制

1.计算图

计算图（Computational Graph）是用来描述运算的有向无环图，其中的节点表示数据，如张量等；边表示运算，如加减乘除卷积等。

深度学习框架采用的是两种策略：静态图和动态图。
Tensorflow 1 和Caffe支持静态图，即提前构造好运算，再根据输入的张量进行计算得出结果。其优点是，减少了计算图构建的时间消耗，效率高；但却无法进行修改且上手较难。

Pytorch使用的是动态计算图，运算与搭建同时进行，可以实时输出深度学习模型的中间张量，便于调试。

2.自动求导

自动求导的过程是：从计算图输出的损失函数标量值，利用反向传播算法，反推计算图中权重张量的梯度。

t1=torch.randn(3,3,requires_grad=True)
t1

tensor([[ 0.1071, -0.6140, -1.0037],
        [ 0.3234, -1.4746, -1.7091],
        [-1.0635,  1.3680,  1.4820]], requires_grad=True)

t2=t1.pow(2).sum() #计算张量所有张量平方和
t2.backward()

t1.grad   #梯度是原分量的两倍
tensor([[ 0.2142, -1.2281, -2.0074],
        [ 0.6468, -2.9492, -3.4183],
        [-2.1270,  2.7360,  2.9641]])

t2=t1.pow(2).sum() #计算张量所有张量平方和
t2.backward()
t1.grad   #梯度累计

tensor([[ 0.4285, -2.4562, -4.0147],
        [ 1.2937, -5.8984, -6.8366],
        [-4.2539,  5.4720,  5.9282]])

t1.grad.zero_() #梯度清零

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])