基于pytorch使用NNI的mnist例子分析（附完整代码）

最新推荐文章于 2024-05-14 15:42:33 发布

FaiComeVuoi

最新推荐文章于 2024-05-14 15:42:33 发布

阅读量4.2k

点赞数 4

文章标签： NNI使用

本文链接：https://blog.csdn.net/chenxi1900/article/details/87190760

版权

本文使用的mnist例子来自pytorch官网：
pytorch官网mnist例子链接

工程目录

config.yml ：配置文件
main.py ：mnist_pytorch程序
search_space.json ：搜索空间定义文件

配置文件（config.yml）

authorName: default
experimentName: mnist_pytorch
trialConcurrency: 1
maxExecDuration: 100h
maxTrialNum: 5
#choice: local, remote, pai
trainingServicePlatform: local
searchSpacePath: search_space.json
#choice: true, false
useAnnotation: false
tuner:
  #choice: TPE, Random, Anneal, Evolution, BatchTuner
  #SMAC (SMAC should be installed through nnictl)
  builtinTunerName: TPE
  classArgs:
    #choice: maximize, minimize
    optimize_mode: maximize
trial:
  command: python main.py
  codeDir: .
  gpuNum: 1

配置文件的参数设置

maxTrialNum
实验重复运行的次数
command
命令行
gpuNum
实验使用的GPU数目

搜索空间定义文件(search_space.json)

这里只设置了batch-size,epochs,和学习率三个参数。可根据需要设置更多的参数

{    
    "batch-size": {"_type":"choice", "_value": [32,64]},
    "epochs": {"_type":"choice", "_value": [10]},
    "lr": {"_type":"choice","_value":[0.0001, 0.01, 0.1]}
}

嵌入NNI的Python代码

1. 参数解析

RCV_CONFIG = nni.get_next_parameter()

代码：

RCV_CONFIG = nni.get_next_parameter()
    _logger.debug(RCV_CONFIG)
parser = argparse.ArgumentParser(description='PyTorch MNIST Example')
parser.add_argument('--batch-size', type=int, default=RCV_CONFIG['batch-size'], metavar='N',help='input batch size for training (default: 64)')
parser.add_argument('--epochs', type=int, default=RCV_CONFIG['epochs'], metavar='N',
                        			help='number of epochs to train (default: 10)')
parser.add_argument('--lr', type=float, default=RCV_CONFIG['lr'], metavar='LR',
                        			help='learning rate (default: 0.01)')

2.提交中间结果

nni.report_intermediate_result(loss.item())
这里report的是训练时的loss

代码：

def train(args, model, device, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % args.log_interval == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))
            nni.report_intermediate_result(loss.item())

3.提交最终结果

nni.report_final_result(best_acc)
这里report的是测试精度

代码：

    for epoch in range(1, args.epochs + 1):
        train(args, model, device, train_loader, optimizer, epoch)
        test(args, model, device, test_loader)
    nni.report_final_result(best_acc)

实现过程

首先从search_space.json获得参数字典（参数组合之一），形如：
{"batch-size":64,"epochs":10,"lr":0.0001}
若需要将每次实验结果上报，则使用：
nni.report_intermediate_result(metric)
其中metric得是数字
若要上报最终结果（以此最终结果作为参数选择的参考），则使用：
nni.report_final_result(metric)
其中metric得是数字

每次实验都重复上述流程，直到达到最大的实验次数maxTrialNum（在配置文件中设置）

NNI WebUI的训练结果界面截图

Overview

训练结果

Trials Detail

在这里插入图片描述

Default Metric
Hyper Parameter
Trial Duration

实验结果总结

Default Metric

如上图，横坐标Trial=4时，测试的精确度最小，此时参数为：
{"batch-size":64,"epochs":10,"lr":0.0001}

2.Hyper Parameter
在这里插入图片描述
如上图，测试精度最高的前80%结果。他们的参数分别为：
{"batch-size":64,"epochs":10,"lr":0.1}
{"batch-size":32,"epochs":10,"lr":0.01}
{"batch-size":64,"epochs":10,"lr":0.1}