【英特尔杯比赛】记在DevCloud上训练模型出现的一系列问题与解决方案

写这篇博客的目的是帮助以后参加英特尔杯软件创新大赛的学弟学妹少走弯路:)

情况一:

qsub myjob.txt时出现如下情况:qsub:  script is written in DOS/Windows text format

查了很多网上的内容,只有一种方法可以,竟然它说这种DOS/windows的格式不行,那么我就将这个文件转换成Unix文件

需要安装一个dos2unix的指令“pip install dos2unix”

情况二:

执行了上面的语句“pip install dos2unix”,却出现了如下问题:

Could not install packages due to an EnvironmentError: [Errno 30] Read-only file system: '/glob/intel-python/versions/2019u3/intelpython3/lib/python3.6/site-packages/h5py-2.9.0.dist-info'
Please use "pip install --user <package>" to install user packages.
Please visit the forums at: https://forums.intel.com/s/topic/0TO0P00000018NNWAY/intel-ai-academy

解决方法:

假如说我要安装dos2unix库,那么我输入“pip install --user dos2unix”就OK了

情况三:

安装完成,那么我来试一试

明明安装成功了,却说这个指令不存在,我也没懂什么意思。所以继续找其他方法,直到遇到以下:

安装,打开后选择你的文件myjob.txt,手动将它转换成unix,操作方法如下:

如此文件转换完成,在myjob.txt的相同目录生成了一个myjob.txt.bak文件,将他上传到devcloud相应训练目录即可

情况四:

再试一试“qsub myjob.txt.bak”,似乎是成功了

可是“qstat”查看计算结点状态,并没有返回信息,说明已经输出完毕,但是怎么可能一下子就训练完了?所以肯定出错了

打开myjob.txt.bak.e815

发现:

也就是最简单的包没引入的问题,但是现在在devcloud上,怎么解决?

很简单,在PUTTY上输入“pip install --user tensorflow”  问题解决。

情况五:

好了,如果你在运行上面的安装包语句的时候,出现了一下错误:

Process exceeded login node resource limit.
Please run jobs on compute nodes using qsub or start an interactive shell using qsub -I.
Please see README.txt or visit the forums at: https://forums.intel.com/s/topic/0TO0P00000018NNWAY/intel-ai-academy

说明你是在登录节点上运行的,此时已经超出了登录结点的内存,需要你在计算结点上运行

解决方法:运行 "qsub -I"语句,出现如下内容:

然后继续安装就可以了,图上的安装语法是错的,正确的是“pip install --user tensorflow”

问题解决

如果后续仍有异常将继续更新,也欢迎大家跟我一起讨论遇到的问题,如有一些错误也欢迎指正~

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值