MNIST 数据集_从mnist的训练数据的0-9数字中各选择前100个,组成1000个数字的新训练集trainx1k。-CSDN博客

本文链接：https://blog.csdn.net/qq_44154915/article/details/136606043

MNIST（Modified National Institute of Standards and Technology）是一个广泛使用的手写数字识别数据集，常被用于测试和验证机器学习模型的性能。该数据集包含了一系列28x28像素的灰度图像，每个图像都包含一个手写数字（0到9之间的数字）。以下是有关MNIST数据集的详细信息：

图像大小： 每个图像的大小为28x28像素。这意味着每个图像由28行和28列的像素组成，总共784个像素。
标签： 每个图像都有一个与之相关联的标签，表示图像中手写数字的真实值。标签是0到9之间的整数，对应于手写数字。
训练集和测试集： MNIST数据集通常被分为训练集和测试集。训练集用于训练机器学习模型，而测试集用于评估模型的性能。标准的分割方式是60,000张图像用于训练，10,000张用于测试。
灰度图像： MNIST中的图像是灰度图像，每个像素的强度表示为0到255之间的整数。0表示黑色，255表示白色。
数据预处理： 在使用MNIST数据集进行训练之前，通常需要进行一些数据预处理。这可能包括将像素值进行归一化，将图像大小调整为模型所需的输入大小，以及对标签进行独热编码（one-hot encoding）等操作。
常用于入门： MNIST数据集通常被用作机器学习和深度学习的入门任务，因为它相对较小，容易处理，并且可以用于快速验证模型的正确性。然而，由于其相对简单的特性，一些高级模型和技术可能在更复杂的任务上表现更好。
挑战性： 尽管MNIST是一个经典的数据集，但由于其相对简单的特性，它并不能真正代表现实世界中更复杂的图像识别问题。因此，一些研究者已经提出了更具挑战性的数据集，以推动计算机视觉领域的研究进展。

代码

import torch
from torchvision import datasets, transforms
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib
matplotlib.use('TkAgg')


# 设置全局字体
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['font.family'] = 'sans-serif'
# 设置设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 定义数据预处理和加载
transform = transforms.Compose([transforms.ToTensor()])

train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)

# 获取训练集数据
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=len(train_dataset), shuffle=True)
data, labels = next(iter(train_loader))

# 数据统计
print("训练集样本数:", len(train_dataset))
print("图像大小:", data.shape[1:])

# 显示训练集中前几个样本的图像和标签
plt.figure(figsize=(10, 5))
for i in range(10):
    plt.subplot(2, 5, i + 1)
    plt.imshow(data[i].squeeze().numpy(), cmap='gray')
    plt.title(f"Label: {labels[i].item()}")
    plt.axis('off')
plt.show()

# 分析标签分布
plt.figure(figsize=(8, 5))
plt.hist(labels.numpy(), bins=range(11), align='left', rwidth=0.8)
plt.title("训练集标签分布")
plt.xlabel("标签")
plt.ylabel("样本数")
plt.show()

训练集样本数: 60000
图像大小: torch.Size([1, 28, 28])

在这里插入图片描述