高性能平台使用指南

学校新建的高性能平台,我负责调试,整理这份指南,供师弟师妹们参考

激活工作环境

使用XShell登录,校内IP 地址192.168.211.248,端口22,输入账号密码,登录成功界面如下所示。

然后激活TensorFlow工作环境,Python版本3.6,TensorFlow版本1.10

cd  /share/software/anaconda3/bin
source activate tensorflow

 

数据管理

在校内网内登录http://192.168.211.247:8080,界面如下

下载并安装JHAppClient和JHFileclient两个软件,输入账号密码,登录后界面如下

打开“我的数据”,在这里可以上传需要处理的数据,例如新建一个test.py文件

点击上传按钮,会自动打开JHFileclient,选择test.py,上传成功如下

在平台上运行上传的test.py文件

可以看到,已经成功运行,并输入结果“Hello, TensorFlow!” 

提交任务

想要提交自己的任务,必须以sh脚本的形式,标准格式如下所示,看不懂的话可先略过

#!/bin/bash

#BSUB -q gpu
#BSUB -J jobname
#BSUB -R "span[hosts=1]"
#BSUB -o output.%J.txt

module load gcc
module load cuda/9.0
python mytf.py >> mytf.log

编辑好脚本之后,进行任务提交

提交任务命令jsub < ./task.sh,任务被正确提交,ID是2288

使用jjobs -a查看任务状态,可以看到任务2288、2303、2305已经正常完成(done),编号2314和2315的任务在排队(pend)中

查看自己的所有运行任务情况jjobs,编号2314和2315的任务在待处理中

查看所有任务队列的状态jqueues,NJOBS是当前队列的作业数,PEND是排队中的任务数量,RUN是运行中的任务数量

应用案例1

测试test.sh脚本文件内容如下图,含义是运行gpu.py文件,将结果保存在mytf.py文件中

gpu.py内容如下,含义是简单输出一个张量加法运算

虽然脚本中已经写好加载模块gcc与cuda,但是我在测试中发现报错,因此建议提前在命令行中进行加载,如下所示

然后将sh任务提交,ID为2654

使用jjobs -a查看,可以看到任务2654已经处理完成

然后会生成两个文件,一个output.2654.txt,一个mytf.log

mytf.log内容如下,已经将结果进行了正确保存

 

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值