基于pytorch使用NNI的mnist例子分析(附完整代码)

本文使用的mnist例子来自pytorch官网:
pytorch官网mnist例子链接

工程目录

  • config.yml :配置文件
  • main.py :mnist_pytorch程序
  • search_space.json :搜索空间定义文件
    在这里插入图片描述

配置文件(config.yml)

authorName: default
experimentName: mnist_pytorch
trialConcurrency: 1
maxExecDuration: 100h
maxTrialNum: 5
#choice: local, remote, pai
trainingServicePlatform: local
searchSpacePath: search_space.json
#choice: true, false
useAnnotation: false
tuner:
  #choice: TPE, Random, Anneal, Evolution, BatchTuner
  #SMAC (SMAC should be installed through nnictl)
  builtinTunerName: TPE
  classArgs:
    #choice: maximize, minimize
    optimize_mode: maximize
trial:
  command: python main.py
  codeDir: .
  gpuNum: 1
配置文件的参数设置
  • maxTrialNum
    实验重复运行的次数
  • command
    命令行
  • gpuNum
    实验使用的GPU数目

搜索空间定义文件(search_space.json)

这里只设置了batch-size,epochs,和学习率三个参数。可根据需要设置更多的参数

{    
    "batch-size": {"_type":"choice", "_value": [32,64]},
    "epochs": {"_type":"choice", "_value": [10]},
    "lr": {"_type":"choice","_value":[0.0001, 0.01, 0.1]}
}

嵌入NNI的Python代码

1. 参数解析

RCV_CONFIG = nni.get_next_parameter()

代码:

RCV_CONFIG = nni.get_next_parameter()
    _logger.debug(RCV_CONFIG)
parser = argparse.ArgumentParser(description='PyTorch MNIST Example')
parser.add_argument('--batch-size', type=int, default=RCV_CONFIG['batch-size'], metavar='N',help='input batch size for training (default: 64)')
parser.add_argument('--epochs', type=int, default=RCV_CONFIG['epochs'], metavar='N',
                        			help='number of epochs to train (default: 10)')
parser.add_argument('--lr', type=float, default=RCV_CONFIG['lr'], metavar='LR',
                        			help='learning rate (default: 0.01)') 
2.提交中间结果

nni.report_intermediate_result(loss.item())
这里report的是训练时的loss

代码:

def train(args, model, device, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % args.log_interval == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))
            nni.report_intermediate_result(loss.item())
3.提交最终结果

nni.report_final_result(best_acc)
这里report的是测试精度

代码:

    for epoch in range(1, args.epochs + 1):
        train(args, model, device, train_loader, optimizer, epoch)
        test(args, model, device, test_loader)
    nni.report_final_result(best_acc)

实现过程

  1. 首先从search_space.json获得参数字典(参数组合之一),形如:
    {"batch-size":64,"epochs":10,"lr":0.0001}
  2. 若需要将每次实验结果上报,则使用:
    nni.report_intermediate_result(metric)
    其中metric得是数字
  3. 若要上报最终结果(以此最终结果作为参数选择的参考),则使用:
    nni.report_final_result(metric)
    其中metric得是数字

每次实验都重复上述流程,直到达到最大的实验次数maxTrialNum(在配置文件中设置)

NNI WebUI的训练结果界面截图

Overview

训练结果

Trials Detail

在这里插入图片描述

  • Default Metric
    在这里插入图片描述
  • Hyper Parameter
    在这里插入图片描述
  • Trial Duration
    在这里插入图片描述

实验结果总结

  1. Default Metric
    在这里插入图片描述
    如上图, 横坐标Trial=4时,测试的精确度最小,此时参数为:
    {"batch-size":64,"epochs":10,"lr":0.0001}

2.Hyper Parameter
在这里插入图片描述
如上图,测试精度最高的前80%结果。他们的参数分别为:
{"batch-size":64,"epochs":10,"lr":0.1}
{"batch-size":32,"epochs":10,"lr":0.01}
{"batch-size":64,"epochs":10,"lr":0.1}

3.Trial Duration
可以看出每次实验运行的时间

4.一次实验的结果
在这里插入图片描述
如上图,可看出本次试验的参数在这里插入图片描述
如上图,当前训练loss为0.200218066573143

  1. 最终参数的选择
    首先根据Hyper Parameter的结果,挑选出实验结果较好的几个参数组合,然后再看Trial Duration中的结果,挑选运行时间较短的,并且考虑Intermediate中loss收敛的速度

点击查看完整代码

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
下面是一个使用Python和Pytorch实现的MNIST手写数字识别代码,包括数据加载、模型定义、训练与测试: ```python import torch import torchvision import torchvision.transforms as transforms import torch.nn as nn import torch.nn.functional as F import torch.optim as optim # 数据加载与预处理 transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform) trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True, num_workers=2) testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False, num_workers=2) # 模型定义 class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(1, 6, 5) self.pool = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(6, 16, 5) self.fc1 = nn.Linear(16 * 4 * 4, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10) def forward(self, x): x = self.pool(F.relu(self.conv1(x))) x = self.pool(F.relu(self.conv2(x))) x = x.view(-1, 16 * 4 * 4) x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x net = Net() # 训练 criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9) for epoch in range(10): # 训练10个epoch running_loss = 0.0 for i, data in enumerate(trainloader, 0): inputs, labels = data optimizer.zero_grad() outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() if i % 100 == 99: # 每100个batch输出一次loss print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 100)) running_loss = 0.0 print('Finished Training') # 测试 correct = 0 total = 0 with torch.no_grad(): for data in testloader: images, labels = data outputs = net(images) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print('Accuracy of the network on the 10000 test images: %d %%' % ( 100 * correct / total)) ``` 这段代码实现了一个两层卷积神经网络,训练集和测试集的准确率分别可以达到 98% 左右。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值