广西民族大学高级人工智能课程—头歌实践教学实践平台—Transformer自注意力网络

gxmzuai

于 2023-12-27 12:03:54 发布

阅读量1.3k

点赞数 24

分类专栏：高级人工智能文章标签：自然语言处理

本文链接：https://blog.csdn.net/gxmzuai/article/details/135242044

版权

本系列教程详细介绍了如何使用Transformer模型处理MNIST数据集，包括数据预处理、打包、可视化、图像块编码、自注意力网络实现、全连接层、编码块、编码器、整体结构以及模型训练与测试。通过12个关卡逐步深入，涵盖数据下载、预处理、编码、注意力机制、模型训练和评估等关键步骤。

摘要由CSDN通过智能技术生成

第1关：MNIST 数据集下载与预处理

代码文件

import torch
import torchvision
import torchvision.transforms as transforms

######## Begin ########
# 定义预处理操作集合transform
# 1.转换成Tensor
# 2.数据归一化
transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5,), (0.5,))]
)
######## End ########

######## Begin ########
# 创建训练数据集trainset与测试数据集testset
# 数据集本地已经下载好，数据集根目录：'/data/workspace/myshixun/data'
# 下载download选项请设置为False
trainset = torchvision.datasets.MNIST(root='/data/workspace/myshixun/data', train=True,
                                      download=False, transform=transform)
testset = torchvision.datasets.MNIST(root='/data/workspace/myshixun/data', train=False,
                                     download=False, transform=transform)
######## End ########

if __name__ == "__main__":
    print(trainset)
    print(testset)

题目描述

任务描述

本关任务：编写一个能实现 MNIST 数据集预处理的小程序。

相关知识

为了完成本关任务，你需要掌握：1.MNIST 数据集介绍，2.MNIST 数据集下载与预处理。

`MNIST` 数据集介绍

MNIST 是一个手写体数字的图片数据集，该数据集来由美国国家标准与技术研究所 （National Institute of Standards and Technology (NIST)） 发起整理，一共统计了来自 250 个不同的人手写数字图片，其中 50 是高中生，50 来自人口普查局的工作人员。该数据集的收集目的是希望通过算法，实现对手写数字的识别。

数据集主要包括四个文件：

文件名	文件用途
`train-images-idx3-ubyte.gz`	训练集图像
`train-labels-idx1-ubyte.gz`	训练集标签
`t10k-images-idx3-ubyte.gz`	测试集图像
`t10k-labels-idx1-ubyte.gz`	测试集标签

在上述文件中，训练集一共包含了 60000 张图像和标签，而测试集一共包含了 10000 张图像和标签。测试集中前 5000 个来自最初 NIST 项目的训练集，后 5000 个来自最初 NIST 项目的测试集。前 5000 个比后 5000 个要规整，这是因为前 5000 个数据来自于美国人口普查局的员工，而后 5000 个来自于大学生。

数据集可视化效果如下：

图 1

图 1 MNIST 数据集示例图

`MNIST` 数据集下载与预处理

数据集下载

下载方式一是从官网直接下载：

MNIST 数据集官网：http://yann.lecun.com/exdb/mnist/

在数据集官网给出了 MNIST 数据集的下载链接，我们可以通过点击链接进行下载，如下图所示：

图 2

图 2 数据集官网下载示例图（图片来自网络）

下载方式二是利用深度学习框架 Pytorch 中的 torchvision 库实现数据集的下载，这种下载方式有一个好处是torchvision 库内置了 MNIST 数据集专门的处理类，可以在下载好的同时加载好数据。

下载所要用的是 torchvision.datasets.MNIST 类，它的初始化有以下几个参数：

root：数据集保存根目录；
train：是否是训练集；
download：是否使用在线下载；
transform：数据集预处理函数。

具体使用如下：

trainset = torchvision.datasets.MNIST(root='./data', train=True,
download=True, transform=transform)
testset = torchvision.datasets.MNIST(root='./data', train=False,
download=True, transform=transform)

其中分别返回训练集 trainset 与测试集 testset。

数据集预处理

上述 torchvision.datasets.MNIST 类的初始化中，我们使用了 transform 预处理，现在我们来学习 transform 的具体定义。

在 Pytorch 深度学习框架中，基本数据结构是张量 Tensor：

Tensor 在 Pytorch 深度学习框架中负责存储基本数据，Pytorch 针对 Tensor 也提供了丰富的函数和方法，Pytorch 的 Tensor 与 Numpy 的数组具有极高的相似性；
Pytorch 中定义的 Tensor 数据变量可以在 GPU 上进行运算，而且只需对变量做一些简单的类型转换就能够实现；
Tensor 与 Numpy 数组的最大区别在于，Tensor 可以进行自动求导，这使得深度学习反向传播算法实现起来变得很方便。

图 3

图 3 Tensor 示意图

因此我们首先需要做的预处理是将图像数据转换成 Tensor, torchvision.transforms 类中定义了 Tensor 转换预处理操作：

transforms.ToTensor()

接着由于图像数据表示的是单通道灰度值 （0−255），其分布数值较大不利于网络训练，因此我们还需要对转换成 Tensor 后的数据进行归一化操作：

transforms.Normalize((0.5,), (0.5,))

这里默认数据的均值与方差都是 0.5。

最后用 transforms.Compose 将两种预处理操作组合起来构成 transform：

transform = transforms.Compose(
[transforms.ToTensor(),
transforms.Normalize((0.5,), (0.5,))]
)

编程要求

根据提示，在右侧编辑器补充 Begin-End 中代码，编写 MNIST 数据集预处理代码。

测试说明

平台会对你编写的代码进行测试：

测试1

测试输入：无预期输出：训练集与测试集信息

Dataset MNIST
Number of datapoints: 60000
Root location: /data/workspace/myshixun/data
Split: Train
StandardTransform
Transform: Compose(
ToTensor()
Normalize(mean=(0.5,), std=(0.5,))
)
Dataset MNIST
Number of datapoints: 10000
Root location: /data/workspace/myshixun/data
Split: Test
StandardTransform
Transform: Compose(
ToTensor()
Normalize(mean=(0.5,), std=(0.5,))
)

开始你的任务吧，祝你成功！

第2关：MNIST 数据集打包

代码文件

import torch
import torchvision
import torchvision.transforms as transforms

# Transformations applied on each image
transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5,), (0.5,))])

# Loading the MNIST dataset
trainset = torchvision.datasets.MNIST(root='/data/workspace/myshixun/data', train=True,
                                        download=False, transform=transform)
testset = torchvision.datasets.MNIST(root='/data/workspace/myshixun/data', train=False,
                                       download=False, transform=transform)

######## Begin ########
# Packing the MNIST dataset using torch.utils.data.DataLoader

# Packing the training data
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True, num_workers=0)

# Packing the test data
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=0)
######## End ########

# Getting some random test images
dataiter = iter(testloader)
images, labels = dataiter.next()

# Printing the required details
print(len(testloader))
print(images.shape)
print(labels)

题目描述

任务描述

本关任务：编写一个能实现对预处理后的 MNIST 数据集进行打包的小程序。

编程要求

根据提示，在右侧编辑器补充 Begin-End 中代码，编写 MNIST 数据集打包代码。

测试说明

平台会对你编写的代码进行测试：

测试1

测试输入：无预期输出：

打包后测试集批数：2500
第一批测试集图像维度：torch.Size([4, 1, 28, 28])
第一批测试集标签：tensor([7, 2, 1, 0])

开始你的任务吧，祝你成功！

第3关：MNIST 数据集可视化

代码文件

import torch
import torchvision
import torchvision.transforms as transforms

import matplotlib.pyplot as plt
import numpy as np

transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5,), (0.5,))])

trainset = torchvision.datasets.MNIST(root='/data/workspace/myshixun/data', train=True,
                                        download=False, transform=transform)

testset = torchvision.datasets.MNIST(root='/data/workspace/myshixun/data', train=False,
                                       download=False, transform=transform)

trainloader = torch.utils.data.DataLoader(trainset, batch_size=64,
                                          shuffle=True, num_workers=0)

testloader = torch.utils.data.DataLoader(testset, batch_size=4,
                                         shuffle=False, num_workers=0)

classes = ('zero', 'one', 'two', 'three',
           'four', 'five', 'six', 'seven', 'eight', 'nine')

######## Begin ########
# 图片可视化函数imgshow定义
def imgshow(img):
    img = img / 2 + 0.5     # unnormalize
    npimg = img.numpy()
    plt.imsave("/data/workspace/myshixun/E3/student_show/test.png", np.transpose(npimg, (1, 2, 0)))
######## End ########

# get some random test images
dataiter = iter(testloader)
images, labels = dataiter.next()

print(images.shape)

images = torchvision.utils.make_grid(images)  # 拼接图片

print(images.shape)

# Call imgshow function to visualize and save the image
imgshow(images)

# 输出类别
print(' '.join('%5s' % classes[labels[j]] for j in range(4)))