在网上闲逛时,看到Intel的DL SDK,想瞧瞧怎么样。以下是安装过程中遇到的点点滴滴。
从 https://software.intel.com/en-us/deep-learning-training-tool 可以进入下载页面,可看到有3个下载选项 : for Windows, for MacOS, for Linux。
先试试Windows版本吧,下载后安装提示,将SDK安装到我自己的一台Linux机器上,但报错,原因稀里糊涂。
后下载Linux版本,按照默认选项安装,提示无法下载docker镜像 gcr.io/google_containers/etcd-amd64:3.0.4。这是由于使用到了Kubernetes,需要从google下载相关的docke image。但你懂的,注定会失败。
后运气不错,在网上找到了1.5.2版本Kubernetes相关的镜像文件,下载后,使用命令 docker load将文件加载为本地的docker镜像。
然后尝试重新安装,但依然提示找不到 gcr.io/google_containers/etcd-amd64:3.0.4,但用docker run却是可以正常运行此image的。陷入迷茫中。。。。
后读安装脚本,发现宏USE_CNI控制安装过程中的不同分支,后试着将此宏从默认的false修改为true。重新安装,不再报找不到image的错误。但是Kubernetes服务没能正常起来,尝试连接默认的port 8080失败。依旧迷茫中。。。
依旧看安装脚本,在宏USE_CNI为false时,是使用dockerd作为install主体,即将安装image的请求发送给dockerd,由其来安装;而当USE_CNI为true时,是直接本地安装。可能此种差别导致了找不到image的错误。究其原因,未深入。
后续没辙,再想试试windows版本,安装过程中发现有个multinode选项,将此选项去除后,竟然成功了。。。一脸懵懂。。。
后又尝试Linux安装,使用命令
install_training_tool.sh -type single
也竟然成功了。看来还是multinode惹得祸,究其原因,未深究。
至此,可以使用browser打开sdk的网页试试手了。 用mnist数据集试了试,还行。