Pytorch读取MNIST

MNIST数据集一般有两种使用方法,其中一种在torchvision中已经包装好了,这里讲解手动加载MNIST数据集的方法

下载

首先在官网下载MNIST数据集,地址,一共有四个压缩包,下载后解压即可

读取数据

复制下面代码到readdata.py中,然后给定数据集路径读取即可

import os
import gzip
import numpy as np
from torch.utils.data import Dataset


'''
  load data
    - data_folder: MNIST folder name
    - data_name: MNIST data name
    - label_name: MNIST lable name
'''
def load_data(data_folder, data_name, label_name):
    with gzip.open(os.path.join(data_folder, label_name), 'rb') as lbpath: # rb表示的是读取二进制数据
        y_train = np.frombuffer(lbpath.read(), np.uint8, offset=8)

    with gzip.open(os.path.join(data_folder, data_name), 'rb') as imgpath:
        x_train = np.frombuffer(
            imgpath.read(), np.uint8, offset=16).reshape(len(y_train), 28, 28)
    return (x_train, y_train)


class CustomDataset(Dataset):
    """
        读取数据、初始化数据
    """
    def __init__(self, folder, data_name, label_name,transform=None):
        (train_set, train_labels) = load_data(folder, data_name, label_name) # 其实也可以直接使用torch.load(),读取之后的结果为torch.Tensor形式
        self.train_set = train_set
        self.train_labels = train_labels
        self.transform = transform

    def __getitem__(self, index):

        img, target = np.array(self.train_set[index]), int(self.train_labels[index])
        if self.transform is not None:
            img = self.transform(img)
        return img, target

    def __len__(self):
        return len(self.train_set)
PyTorch是一个开源的机器学习框架,支持Python编程语言。在机器学习领域深度学习是一个热门的课题,而PyTorch框架则是实现深度学习的工具之一,被广泛用于图像识别、自然语言处理、语音识别等领域。 MNIST是一个著名的手写数字数据集,一共包含60,000个训练集和10,000个测试集,每个图像的大小都是28x28的灰度图像。分类MNIST数据集是深度学习的入门练习之一,而在PyTorch分类MNIST数据集十分便捷。 首先要做的就是导入需要的库,如torch、torchvision等。其次需要对数据进行预处理,包括读取数据、定义数据转换、构建数据加载器等。在PyTorch,可以使用torchvision.datasets.MNIST函数来读取MNIST数据集,可以使用torchvision.transforms来对数据进行压缩、翻转、裁剪等预处理,最后利用torch.utils.data.DataLoader函数将数据封装成批次。 接着就是定义模型。PyTorch模型的定义非常灵活,可以直接继承nn.Module来自己构建网络结构。在分类MNIST数据集,可以使用卷积神经网络(CNN)来进行训练。CNN是针对图像等二维数据的深度学习方法,可以提取图像的局部特征,并减少模型的参数量,增加模型的泛化能力。 训练模型的核心就是定义损失函数和优化器。PyTorch常用的损失函数是交叉熵损失,可以使用torch.nn.CrossEntropyLoss进行定义,而优化器则可以选择Adam、SGD等方法。 最后就是模型的训练和测试。训练阶段使用for循环对每个批次的数据进行计算并反向传播,优化模型参数;测试阶段则是利用训练好的模型对新的数据进行预测,并计算模型的准确率。可以使用torch.save函数将训练好的模型保存下来,以便之后的使用。 总之,PyTorchMNIST的分类可以通过简单的几步实现。在实际应用,可以针对不同的数据集和任务,利用PyTorch快速搭建和训练自己的深度学习模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值