基于pytorch的代码在GPU和CPU上训练时,训练输出结果不同问题

最近打算将代码放在GPU上跑,但是每次跑出来的结果都和CPU跑出来的结果不同,代码是完全一样的,为什么会出现这个问题呢?

 

这是CPU(上)GPU(下)运行结果,可以看出来第一次迭代就不同的结果。分析了很久,还以为是GPU浮点运算误差导致的,结果最后发现是随机种子产生的随机数不同。这里就贴一下我遇到的随机数种子问题吧。

 

在CPU上我本来是这样设置的。 这里是在CPU上运行的,所以将参数设置为的是使用CPU产生的随机数,就是这里,将代码放在GPU上跑时,这里的device是GPU,是由GPU产生的随机数,所以这个语句导致的就是随机数产生不一样,即使随机种子一样的,但是不同device产生了不同的随机数。

为了解决这个问题只需要把代码改一下就行,如上图,这里表示将参数指定到CPU或者GPU上,但是参数的生成都是使用CPU生成的。在CPU上跑,那么就是CPU生成,CPU使用,但是在GPU上跑的时候也是由CPU生成,但是参数搬到了GPU上,这里主要是使随机数的产生都是由CPU产生。问题解决,这个问题虽然不难,但是也需要注意一下。

 

  • 8
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
好的,下面是一个基于PytorchGPU的手写英文字母识别系统的代码,包括详细注释和可视化性能结果: ```python import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms import matplotlib.pyplot as plt # 设置GPU加速 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") # 加载训练集和测试集,并进行数据预处理 transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) trainset = torchvision.datasets.EMNIST(root='./data', split='letters', train=True, download=True, transform=transform) trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True, num_workers=2) testset = torchvision.datasets.EMNIST(root='./data', split='letters', train=False, download=True, transform=transform) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False, num_workers=2) # 定义神经网络模型 class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(1, 6, 5) self.pool1 = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(6, 16, 5) self.pool2 = nn.MaxPool2d(2, 2) self.fc1 = nn.Linear(16 * 4 * 4, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, 27) def forward(self, x): x = self.pool1(torch.relu(self.conv1(x))) x = self.pool2(torch.relu(self.conv2(x))) x = x.view(-1, 16 * 4 * 4) x = torch.relu(self.fc1(x)) x = torch.relu(self.fc2(x)) x = self.fc3(x) return x net = Net().to(device) # 定义损失函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9) # 训练神经网络模型 for epoch in range(10): # 进行10次训练循环 running_loss = 0.0 for i, data in enumerate(trainloader, 0): inputs, labels = data[0].to(device), data[1].to(device) optimizer.zero_grad() outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() if i % 200 == 199: # 每200个小批量数据打印一次损失函数值 print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 200)) running_loss = 0.0 print('Finished Training') # 测试神经网络模型 correct = 0 total = 0 with torch.no_grad(): for data in testloader: images, labels = data[0].to(device), data[1].to(device) outputs = net(images) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print('Accuracy of the network on the 10000 test images: %d %%' % ( 100 * correct / total)) # 输出每个类别的准确率 class_correct = list(0. for i in range(27)) class_total = list(0. for i in range(27)) with torch.no_grad(): for data in testloader: images, labels = data[0].to(device), data[1].to(device) outputs = net(images) _, predicted = torch.max(outputs, 1) c = (predicted == labels).squeeze() for i in range(64): label = labels[i] class_correct[label] += c[i].item() class_total[label] += 1 for i in range(27): print('Accuracy of %5s : %2d %%' % ( chr(i+65), 100 * class_correct[i] / class_total[i])) # 可视化神经网络模型的性能结果 dataiter = iter(testloader) images, labels = dataiter.next() outputs = net(images.to(device)) _, predicted = torch.max(outputs, 1) fig, axes = plt.subplots(nrows=5, ncols=10, figsize=(20,10)) fig.suptitle('Model Performance') for i, ax in enumerate(axes.flat): ax.imshow(images[i].squeeze(), cmap='gray') ax.set(title = f"true: {chr(labels[i]+65)}, pred: {chr(predicted[i].item()+65)}") ax.axis('off') plt.show() ``` 注释解释: 1. 导入必要的Pytorch库和Matplotlib库。 2. 设置GPU加速。 3. 加载训练集和测试集,并进行数据预处理。这里使用了EMNIST数据集,该数据集包含了手写字母和数字的图像数据,其中每个图像为28x28像素的灰度图像。 4. 定义神经网络模型。这里使用了一个简单的卷积神经网络,包括两个卷积层和三个全连接层。 5. 定义损失函数和优化器。这里使用了交叉熵损失函数和随机梯度下降优化器。 6. 训练神经网络模型。这里进行了10次训练循环,每次循环使用64个图像进行训练。在每个小批量数据之后,打印损失函数值。 7. 测试神经网络模型。这里使用测试集对神经网络模型进行测试,并计算其准确率。 8. 输出每个类别的准确率。这里计算了每个字母的准确率。 9. 可视化神经网络模型的性能结果。这里使用测试集中的一些图像进行可视化,展示神经网络模型的预测结果。 运行代码后,可以看到每个字母的准确率,以及神经网络模型对测试集中一些图像的预测结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值