微软nni_NNI(1)初次使用初始化运行

本文介绍了微软的自动机器学习工具NNI的初次使用经验,包括环境搭建过程中的问题与解决方案。作者在Mac OS和Ubuntu上安装NNI,成功运行MNIST样例并分析了遇到的启动错误、数据路径错误和TensorFlow依赖问题。同时,文章提出了在NNI Web界面直接查看log文件夹以提升远程调试便利性的建议。
摘要由CSDN通过智能技术生成

1.概述

NNI是一款由微软公司所开发的AutoML工具包,能够帮助研究者们训练自己的模型

NNI的GiHub的地址为:https://github.com/Microsoft/nni/

这次搭建NNI环境共使用了两台电脑,其中一台为装有黑苹果系统(Mac OS 10.13.6)的Zotac Mini PC(GTX

1070) 以及一台Ubuntu 18.04的老式Alienware 18(GTX 860M

SLI)。整个搭建过程中虽然走了不少弯路,但是最后终于能够顺利完成mnist文件夹中样例程序的测试,针对这次所出现的比较典型的问题,我将在博文的后面进行整理。

这是首次运行成功的截图,可以看到通过WEB界面看到每个tril的运行情况,以及各种超参的信息。可以看出与其他AutoML工具相比,NNI的界面更加直观,对实验数据的分析有着很好的帮助。

此外NNI的文档目前已有中文版本,对于英文不熟练的研究者有着很大的帮助。

随后我修改了默认样例的config.yml文件,包括训练时长等信息,同时也使用了GPU来进行训练,可以看出NNI能够快速对配置文件进行设置,从而快速的完成调试和分析任务。

2.问题

2.1 已解决

(1) Q:无法启动实验,显示“ERROR: Please set correct config path!”

A:保证所有文件正确正确下载,命令输入正确并且按照开发环境配置正确,如果仍然有问题可推出终端或者将当前目录切换到用户根目录下进行尝试。

(2) Q:样例实验可运行,但是trial全部failed,在log中提示如下:

File "/usr/lib/python3.6/urllib/request.py",

line 526, in open

response = self._open(req,

data)

File "/usr/lib/python3.6/urllib/request.py",

line 544, in _open

'_open', req)

File "/usr/lib/python3.6/urllib/request.py",

line 504, in _call_chain

result = func(*args)

File "/usr/lib/python3.6/urllib/request.py",

line 1361, in https_open

context=self._context,

check_hostname=self._check_hostname)

File "/usr/lib/python3.6/urllib/request.py",

line 1320, in do_open

raise URLError(err)

urllib.error.URLError:

A:确保训练数据是否放置到样例代码所指示的目录中(/tmp/tensorflow/input),或者运行mnist_before来准备训练数据。

(3) Q:无法运行tensorflow的样例,出现以下错误

File "/usr/lib/python3.6/imp.py", line 243,

in load_module

return load_dynamic(name,

filename, file)

File "/usr/lib/python3.6/imp.py", line 343,

in load_dynamic

return _load(spec)

ImportError: libcublas.so.9.0: cannot open shared object file:

No such file or directory

Failed to load the native TensorFlow runtime.

See https://www.tensorflow.org/install/errors

for some common reasons and solutions. Include

the entire stack trace

above this error message when asking for help.

A:需安装正确的CUDA版本(tensorflow 1.12官方对应的版本时CUDA9.0)

2.2 未解决

使用黑苹果系统时,按所有的相关文档进行配置,并且确认了python3,tensorflow等可以正常运行,但是experiment中虽然trail可以正常运行,但是结果确实全部failed,检查了log文件也没有出现error。

后来更换了机器(Alienware 18,ubuntu18.04,GTX 860M

SLI)之后运行正常(如概述所示),个人认为可能是因为10.13运行环境所致(NNI文档要求最少10.14.1)

3.建议

如果可能的话,希望在网页端这里能够直接可以打开对应的log文件夹,能够更方便地进行远程调试。

experiment所下载的配置文件已存入以下网盘:链接:https://pan.baidu.com/s/1Whi6gbM6_tA3nyA_g5TBXA

提取码:5gji

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值