pytorch保存准确率_使用PyTorch建立图像分类模型

161d2736872a3191c36a8030c7c880f2.png

目录

  1. 简要介绍PyTorch、张量和NumPy
  2. 为什么选择卷积神经网络(CNNs)?
  3. 识别服装问题
  4. 使用PyTorch实现CNNs

1.简要介绍PyTorch、张量和NumPy

让我们快速回顾一下第一篇文章中涉及的内容。我们讨论了PyTorch和张量的基础知识,还讨论了PyTorch与NumPy的相似之处。

PyTorch是一个基于python的库,提供了以下功能:

  • 用于创建可序列化和可优化模型的TorchScript
  • 以分布式训练进行并行化计算
  • 动态计算图,等等
2e1778403abd2914098f210f3fc35b0b.png

PyTorch中的张量类似于NumPy的n维数组,也可以与gpu一起使用。在这些张量上执行操作几乎与在NumPy数组上执行操作类似。这使得PyTorch非常易于使用和学习。

在本系列的第1部分中,我们构建了一个简单的神经网络来解决一个案例研究。使用我们的简单模型,我们在测试集中获得了大约65%的基准准确度。现在,我们将尝试使用卷积神经网络来提高这个准确度。

2.为什么选择卷积神经网络(CNNs)?

在我们进入实现部分之前,让我们快速地看看为什么我们首先需要CNNs,以及它们是如何工作的。

我们可以将卷积神经网络(CNNs)看作是帮助从图像中提取特征的特征提取器。

在一个简单的神经网络中,我们把一个三维图像转换成一维图像,对吧?让我们看一个例子来理解这一点:

f817b08aadb91ab6b0137fec6079b260.png

你能认出上面的图像吗?这似乎说不通。现在,让我们看看下面的图片:

287c3ffa8a8c3f0d3238681dc48c4cb1.png

我们现在可以很容易地说,这是一只狗。如果我告诉你这两个图像是一样的呢?相信我,他们是一样的!唯一的区别是第一个图像是一维的,而第二个图像是相同图像的二维表示

空间定位

人工神经网络也会丢失图像的空间方向。让我们再举个例子来理解一下:

9d1e654a03dbf666a0769814ba7c2e68.png

你能分辨出这两幅图像的区别吗?至少我不能。由于这是一个一维的表示,因此很难确定它们之间的区别。现在,让我们看看这些图像的二维表示:

5f0c86c73cf25cd4a357848f6365dac6.png

在这里,图像某些定位已经改变,但我们无法通过查看一维表示来识别它。

这就是人工神经网络的问题——它们失去了空间定位。

大量参数

神经网络的另一个问题是参数太多。假设我们的图像大小是28283 -所以这里的参数是2352。如果我们有一个大小为2242243的图像呢?这里的参数数量为150,528。

这些参数只会随着隐藏层的增加而增加。因此,使用人工神经网络的两个主要缺点是:

  1. 丢失图像的空间方向
  2. 参数的数量急剧增加

那么我们如何处理这个问题呢?如何在保持空间方向的同时减少可学习参数?

这就是卷积神经网络真正有用的地方。CNNs有助于从图像中提取特征,这可能有助于对图像中的目标进行分类。它首先从图像中提取低维特征(如边缘),然后提取一些高维特征(如形状)。

我们使用滤波器从图像中提取特征,并使用池技术来减少可学习参数的数量。

在本文中,我们不会深入讨论这些主题的细节。如果你希望了解滤波器如何帮助提取特征和池的工作方式,我强烈建议你从头开始学习卷积神经网络的全面教程。

3.问题:识别服装

理论部分已经铺垫完了,开始写代码吧。我们将讨论与第一篇文章相同的问题陈述。这是因为我们可以直接将我们的CNN模型的性能与我们在那里建立的简单神经网络进行比较。

你可以从这里下载“识别”Apparels问题的数据集。

https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-apparels/?utmsource=blog&utmmedium=building-image-classification-models-cnn-pytorch

让我快速总结一下问题陈述。我们的任务是通过观察各种服装形象来识别服装的类型。我们总共有10个类可以对服装的图像进行分类:

8907be896167cc9c9cef89c83a94ef17.png

数据集共包含70,000张图像。其中60000张属于训练集,其余10000张属于测试集。所有的图像都是大小(28*28)的灰度图像。数据集包含两个文件夹,一个用于训练集,另一个用于测试集。每个文件夹中都有一个.csv文件,该文件具有图像的id和相应的标签;

准备好开始了吗?我们将首先导入所需的库:

加载数据集

现在,让我们加载数据集,包括训练,测试样本:

bd3e1e3faf358360ba5de69ee34fba44.png
  • 该训练文件包含每个图像的id及其对应的标签
  • 另一方面,测试文件只有id,我们必须预测它们对应的标签
  • 样例提交文件将告诉我们预测的格式

我们将一个接一个地读取所有图像,并将它们堆叠成一个数组。我们还将图像的像素值除以255,使图像的像素值在[0,1]范围内。这一步有助于优化模型的性能。

让我们来加载图像:

76eeb1ac6670b76edfdf0b75ad9f87dc.png

如你所见,我们在训练集中有60,000张大小(28,28)的图像。由于图像是灰度格式的,我们只有一个单一通道,因此形状为(28,28)。

现在让我们研究数据和可视化一些图像:

38576d87f8e42e478739af522fcb58f9.png

以下是来自数据集的一些示例。我鼓励你去探索更多,想象其他的图像。接下来,我们将把图像分成训练集和验证集。

创建验证集并对图像进行预处理

eff1144bc513c9421af30134820c42d1.png

我们在验证集中保留了10%的数据,在训练集中保留了10%的数据。接下来将图片和目标转换成torch格式:

824b921573a1490f3c17161840dd2a5b.png

同样,我们将转换验证图像:

41b4ace1e5ada120c026ff0c64d8e4b6.png

我们的数据现在已经准备好了。最后,是时候创建我们的CNN模型了!

4.使用PyTorch实现CNNs

我们将使用一个非常简单的CNN架构,只有两个卷积层来提取图像的特征。然后,我们将使用一个完全连接的Dense层将这些特征分类到各自的类别中。

让我们定义一下架构:

现在我们调用这个模型,定义优化器和模型的损失函数:

def98f1ba47dc6124593f6ad238e6804.png

这是模型的架构。我们有两个卷积层和一个线性层。接下来,我们将定义一个函数来训练模型:

最后,我们将对模型进行25个epoch的训练,并存储训练和验证损失:

9d49d0376904e068a02351bd3f0b3507.png

可以看出,随着epoch的增加,验证损失逐渐减小。让我们通过绘图来可视化训练和验证的损失:

9ef0e3afe4a5b73cb9bf675e4be8a7b1.png

啊,我喜欢想象的力量。我们可以清楚地看到,训练和验证损失是同步的。这是一个好迹象,因为模型在验证集上进行了很好的泛化。

让我们在训练和验证集上检查模型的准确性:

d1525893ec837c2776f4da764a139d9b.png
f3fad8b64806a0dc2acf46d553f602c0.png

训练集的准确率约为72%,相当不错。让我们检查验证集的准确性:

37b98cc1eb8a17c16a54ebe4b89da9a1.png

正如我们看到的损失,准确度也是同步的-我们在验证集得到了72%的准确度。

为测试集生成预测

最后是时候为测试集生成预测了。我们将加载测试集中的所有图像,执行与训练集相同的预处理步骤,最后生成预测。

所以,让我们开始加载测试图像:

8e053a227b1812b2a895858fb1020a28.png

现在,我们将对这些图像进行预处理步骤,类似于我们之前对训练图像所做的:

81431679f33d5fedc97b9b23fb70fd35.png

最后,我们将生成对测试集的预测:

用预测替换样本提交文件中的标签,最后保存文件并提交到排行榜:

6ff4a0430817fa87cb05020410e4628f.png

你将在当前目录中看到一个名为submission.csv的文件。你只需要把它上传到问题页面的解决方案检查器上,它就会生成分数。链接:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-apparels/?utmsource=blog&utmmedium=building-image-classification-models-cnn-pytorch

我们的CNN模型在测试集上给出了大约71%的准确率,这与我们在上一篇文章中使用简单的神经网络得到的65%的准确率相比是一个很大的进步。

5.结尾

在这篇文章中,我们研究了CNNs是如何从图像中提取特征的。他们帮助我们将之前的神经网络模型的准确率从65%提高到71%,这是一个重大的进步。

你可以尝试使用CNN模型的超参数,并尝试进一步提高准确性。要调优的超参数可以是卷积层的数量、每个卷积层的滤波器数量、epoch的数量、全连接层的数量、每个全连接层的隐藏单元的数量等。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用transformers库进行CIFAR-10图像分类时,你可以使用PyTorch提供的CrossEntropyLoss作为损失函数,并选择Adam或SGD作为优化器。以下是一个简单的示例代码,用于训练和保存模型,并记录训练过程的损失和准确率。 ```python import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader from torchvision.datasets import CIFAR10 from torchvision.transforms import ToTensor, Normalize from transformers import ViTModel # 定义模型 model = ViTModel.from_pretrained('google/vit-base-patch16-224') model.fc = nn.Linear(model.config.hidden_size, 10) # 加载数据 train_data = CIFAR10(root='./data', train=True, transform=ToTensor(), download=True) train_loader = DataLoader(train_data, batch_size=64, shuffle=True) # 定义损失函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.001) # 训练模型 num_epochs = 10 for epoch in range(num_epochs): running_loss = 0.0 correct = 0 total = 0 for i, (inputs, labels) in enumerate(train_loader): optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() # 统计损失和准确率 running_loss += loss.item() _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() # 输出训练结果 print('Epoch [%d/%d], Loss: %.4f, Accuracy: %.2f%%' % (epoch+1, num_epochs, running_loss / len(train_loader), 100 * correct / total)) # 保存模型 torch.save(model.state_dict(), 'cifar10_vit.pth') ``` 在训练过程,你可以使用tensorboard等工具记录损失和准确率,并可视化损失和准确率曲线。在代码增加以下内容即可: ```python from torch.utils.tensorboard import SummaryWriter # 定义tensorboard writer writer = SummaryWriter(log_dir='./logs') # 在每个epoch结束时记录损失和准确率 writer.add_scalar('Loss/train', running_loss / len(train_loader), epoch) writer.add_scalar('Accuracy/train', 100 * correct / total, epoch) # 关闭tensorboard writer writer.close() ``` 最后,你可以使用以下代码加载保存模型,并进行测试: ```python # 加载模型 model.load_state_dict(torch.load('cifar10_vit.pth')) # 加载测试数据 test_data = CIFAR10(root='./data', train=False, transform=ToTensor(), download=True) test_loader = DataLoader(test_data, batch_size=64, shuffle=False) # 测试模型 correct = 0 total = 0 with torch.no_grad(): for inputs, labels in test_loader: outputs = model(inputs) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print('Test Accuracy: %.2f%%' % (100 * correct / total)) ``` 希望这些代码对你有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值