PyTorch的向量化思维，以及Tensor、nn接口

North_D

于 2024-03-18 11:50:46 发布

阅读量188

点赞数

分类专栏： PyTorch与大语言模型文章标签： pytorch 人工智能 python 自然语言处理机器学习深度学习神经网络

本文链接：https://blog.csdn.net/qq_39813001/article/details/136804877

版权

PyTorch与大语言模型专栏收录该内容

16 篇文章 1 订阅

订阅专栏

PyTorch的向量化思维，以及Tensor、nn接口

大语言模型的向量化思路

大语言模型（Large Language Model，LLM）中向量化思路的核心原理、步骤和技术主要包括以下几个方面：

核心原理

词向量化（Word Embedding）: 大语言模型的基础是对词汇进行向量化表示，将原本离散的词语映射到连续的高维空间中的向量。这样做的目的是捕捉词汇之间的语义和语法关系，使得相似含义或相近上下文中的词语在向量空间中有类似的分布。
上下文敏感表示（Contextualized Embeddings）: 在传统的静态词向量（如Word2Vec、GloVe）的基础上，大语言模型如Transformer架构引入了上下文敏感的词嵌入方法。这意味着同一词语在不同上下文中会有不同的向量表示，从而更好地表达语言的灵活性和复杂性。

关键步骤

输入编码（Input Encoding）：
- Tokenization: 将原始文本切分为tokens（通常包括词、子词或标点符号等）。
- Embedding Layer: 对每个token赋予一个低维稠密向量（词嵌入向量）。
- 位置编码（Positional Encoding）: 在Transformer模型中，向每个词嵌入添加与其在句子中位置相关的向量，确保模型能理解顺序信息。
变换计算（Transformers Layers）：
- Self-Attention机制: Transformer模型通过自注意力机制计算各个token之间的相互影响权重，形成上下文相关的向量表示。
- Feed Forward Networks (FFNs): 进一步对自注意力层得到的向量进行非线性变换和特征提取。

关键技术

Transformer架构：这是现代大语言模型中最常用的核心技术，它完全依赖于注意力机制而非循环神经网络（RNN）来处理序列数据，显著提升了模型训练速度和效果。
注意力机制（Attention Mechanism）：这一机制允许模型在处理输入时动态分配权重，突出重要信息而忽视不相关的信息，从而生成更准确的上下文向量。
多头注意力（Multi-Head Attention）：在Transformer中，多头注意力进一步增强了模型捕捉多种不同类型上下文信息的能力。
残差连接（Residual Connections）：为了防止梯度消失问题和深层网络训练难题，Transformer使用了残差连接来融合原始输入和各层变换后的信息。

综上所述，大语言模型通过一系列技术手段将文本数据转化为数值向量形式，以便神经网络进行计算和预测，最终实现对语言的理解和生成任务。

PyTorch中的向量化

在PyTorch中，向量化流程是将数据处理和计算过程转化为在张量（Tensor）上的一系列操作，从而提升计算效率并简化编程复杂度。向量化的核心思想是避免使用循环结构逐个处理数据，转而利用矩阵和向量运算一次性处理整个数据集。这样做的好处包括更好的并行处理能力，减少内存访问开销，以及充分利用现代计算设备（如GPU）的并行计算优势。

向量化计算是一种特殊的并行计算方式。一般来说，程序在同一时间内只执行一个操作，而并行计算可以在同一时间内执行多个操作。向量化计算是指对不同的数据执行同样的一个或一批指令，或者把指令应用到一个数组或向量上，从而将多次循环操作变成一次计算。向量化操作可以极大地提高科学运算的效率。尽管Python本身是一门高级语言，使用简便，但是其中存在着许多低效的操作，例如for循环等。因此，在科学计算中应当极力避免使用Python原生的for循环，尽量使用向量化数值运算。

向量化的作用和意义：

提高性能：避免Python的循环带来的巨大计算开销，利用NumPy和PyTorch底层的高效C/CUDA实现进行计算。
简化编程：通过向量化表达，代码更简洁，更易于阅读和调试。
利于硬件加速：向量化代码可以直接利用GPU进行并行计算，大大提升处理大规模数据的速度。

在PyTorch中向量化用到的接口和功能：

创建张量：

import torch

# 创建一维张量（向量）
vector = torch.tensor([1, 2, 3, 4, 5]) # 创建一个浮点型向量

数学运算：

# 向量加法
another_vector = torch.tensor([6, 7, 8, 9, 10])
result = vector + another_vector

# 矩阵乘法（向量乘法的特殊情况）
matrix = torch.tensor([[10, 20], [30, 40]])
dot_product = torch.mm(vector.view(1, -1), matrix.t()) # 向量与矩阵的点积

张量广播机制：

# 广播机制下的向量与标量运算
scalar = torch.tensor(2.0)
scaled_vector = vector * scalar

张量索引和切片：

# 索引访问
first_element = vector[0]

# 切片操作
even_indices = vector[::2]

高级功能：

torch.stack() 或 torch.cat()：堆叠或拼接向量
torch.reshape() 或 view()：重塑张量形状
torch.sum() 或 torch.mean()：对向量进行求和或平均操作
torch.max() 或 torch.min()：找出向量的最大或最小值
torch.norm()：计算向量的范数

自动梯度和优化：

# 设置张量需要计算梯度
vector.requires_grad = True

# 执行向量化操作
loss = torch.sum(vector * vector)

# 反向传播计算梯度
loss.backward()

# 访问梯度
vector.grad

通过以上接口和功能，可以在PyTorch中实现高效的向量化计算流程。

`torch.nn` 是 PyTorch 中用于构建和训练神经网络的核心模块

Tensor是PyTorch中用来表示多维数组的数据结构，它是整个框架的基础。类似于NumPy的ndarray，但它具有额外的特性，例如能够在GPU上运行，并且支持自动求导（autograd）。
它提供了构建、组合和训练神经网络所需的类和函数。nn 模块主要包括以下几个方面：

主要特点：

- **异构计算**：Tensors可在CPU或GPU以及可能的其他加速设备上存储和计算，提供了硬件加速能力。
- **动态图**：PyTorch采用动态图模式，任何Tensor上的操作都会实时构建和更新计算图，允许灵活编程和即时检查中间结果。
- **自动求导**：当一个Tensor的`.requires_grad`属性被设置为True时，所有对该Tensor的操作都会被记录在计算图中，以便后续执行反向传播来计算梯度。
- **丰富的数学运算**：Tensor支持各种数学运算，包括但不限于加减乘除、矩阵运算、卷积、指数、对数、激活函数等。

1. 层（Layers）

包括各种神经网络层，如全连接层 (nn.Linear)、卷积层 (nn.Conv2d、nn.Conv3d等)、池化层 (nn.MaxPool2d、nn.AvgPool2d等)、激活函数层 (nn.ReLU、nn.Sigmoid等)、门控机制层 (nn.LSTM、nn.GRU)、自注意力机制 (nn.MultiheadAttention) 等。

示例代码：

import torch
import torch.nn as nn

# 创建一个简单的全连接层
fc_layer = nn.Linear(in_features=256, out_features=128, bias=True)

# 创建一个二维卷积层
conv_layer = nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, stride=1, padding=1)

# 创建一个ReLU激活层
relu_layer = nn.ReLU()

# 创建一个双向LSTM层
lstm_layer = nn.LSTM(input_size=512, hidden_size=256, num_layers=2, bidirectional=True)

2. 模型（Modules）

nn.Module 是所有神经网络层和模型的基类，用户可以继承 nn.Module 来自定义网络结构。

示例代码：

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc1 = nn.Linear(784, 256)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(256, 10)

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x

model = MyModel()

3. 损失函数（Loss Functions）

nn 模块也包含了各类损失函数，如交叉熵损失 (nn.CrossEntropyLoss)、均方误差损失 (nn.MSELoss) 等。

示例代码：

criterion = nn.CrossEntropyLoss()

4. 实用函数（Utils）

nn.functional 子模块包含了更多高级功能和可直接应用于张量的函数，如卷积操作 (F.conv2d)、池化操作 (F.max_pool2d)、激活函数 (F.relu) 等。

示例代码：

import torch.nn.functional as F

# 使用 functional 接口执行卷积操作
output = F.conv2d(input_tensor, weight, bias)

# 使用 functional 接口执行 softmax with logit 操作
logits = model(inputs)
probabilities = F.softmax(logits, dim=1)

5. 优化器（Optimizers）

虽然不在 nn 模块内，但在训练过程中，torch.optim 模块的优化器如 optim.SGD、optim.Adam 等会与 nn.Module 配合使用，以更新模型参数。

示例代码：

import torch.optim as optim

optimizer = optim.Adam(model.parameters(), lr=0.001)

总的来说，torch.nn 模块是构建、训练和评估神经网络模型的基础工具箱，它极大地简化了深度学习模型的设计和实现过程。

在PyTorch中，`torch.Tensor` 是最基本的计算单元

torch.nn是PyTorch中用于构建和训练神经网络的高级API，提供了许多预定义的层、损失函数以及其他组件，极大地简化了深度学习模型的开发流程。

使用nn接口可以更加便捷地搭建复杂的神经网络结构，并利用内置优化器进行模型参数的更新。由于nn模块内部已经整合了自动求导机制，因此在模型训练过程中可以无缝进行前向传播、反向传播和梯度更新。

它是表示多维数组（张量）的数据结构。torch.Tensor 提供了一系列丰富的接口和方法，用于创建、操作、变换以及与其他计算组件（如神经网络层和优化器）互动的张量。以下是一些关键的torch.Tensor接口、功能和作用，以及对应的示例代码：

1. 创建张量

功能：创建不同数据类型和形状的张量。

示例代码：

import torch

# 创建一个浮点型的1x3张量
t = torch.tensor([[1., 2., 3.]])
print(t)

# 创建一个随机初始化的4x4张量，数据类型为float32
random_t = torch.randn(4, 4, dtype=torch.float32)

2. 属性访问

功能：获取张量的形状、数据类型、设备等属性。

示例代码：

# 获取张量的形状
shape = t.shape
print(shape)  # 输出：torch.Size([1, 3])

# 获取张量的数据类型
dtype = t.dtype
print(dtype)  # 输出：torch.float32

# 获取张量所在的设备（CPU或GPU）
device = t.device
print(device)  # 输出：device(type='cpu')

3. 张量操作

功能：执行数学运算，如加减乘除、矩阵运算、索引和切片等。

示例代码：

# 张量加法
sum_t = t + torch.tensor([[4., 5., 6.]])
print(sum_t)

# 矩阵乘法
matmul_t = torch.matmul(t, torch.transpose(t, 0, 1))
print(matmul_t)

# 索引和切片
first_element = t[0, 0]
print(first_element)
slice_t = t[:, 1:]
print(slice_t)

4. 数据传输

功能：在CPU和GPU设备之间移动张量。

示例代码：

# 将张量转移到GPU
if torch.cuda.is_available():
    t_gpu = t.cuda()

5. 自动梯度计算

功能：启用张量的自动求导功能。

示例代码：

# 创建可求导的张量
requires_grad = True
t.requires_grad_(requires_grad)

# 进行计算，并反向传播计算梯度
y = t * 2
y.backward(torch.ones_like(y))

# 查看张量的梯度
print(t.grad)

6. 保存和加载张量

功能：持久化张量数据到磁盘，以及从磁盘加载张量。

示例代码：

# 保存张量
torch.save(t, 'tensor.pt')

# 加载张量
loaded_t = torch.load('tensor.pt')

以上只是 torch.Tensor 接口中的一部分，实际上，PyTorch 提供了大量的张量操作和函数，满足深度学习和数值计算中的各种需求。

North_D

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
PyTorch的向量化思维，以及Tensor、nn接口

大语言模型的基础是对词汇进行向量化表示，将原本离散的词语映射到连续的高维空间中的向量。这样做的目的是捕捉词汇之间的语义和语法关系，使得相似含义或相近上下文中的词语在向量空间中有类似的分布。是PyTorch中用来表示多维数组的数据结构，它是整个框架的基础。是PyTorch中用于构建和训练神经网络的高级API，提供了许多预定义的层、损失函数以及其他组件，极大地简化了深度学习模型的开发流程。接口中的一部分，实际上，PyTorch 提供了大量的张量操作和函数，满足深度学习和数值计算中的各种需求。
复制链接

扫一扫