人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒

项目内容
这个作业属于哪个课程人工智能实战2019
这个作业的要求在哪里OpenPAI与NNI的使用
我在本作业的目标学习OpenPAI的使用

学习OpenPAI的使用

OpenPAI简介

​ OpenPAI用于管理计算资源,并对机器学习任务进行了优化。通过Docker技术,硬件计算资源与软件相分离。这样,用户能轻松的进行分布式计算,在不同的深度学习框架间切换,也能在完全一致的环境中重复运行作业。适用场景如下:

  • 在团队间共享强大的AI计算资源(例如,GPU,FPGA集群)。
  • 在组织内共享或重用AI资产(如模型,数据,运行环境等)。
  • 构建易于IT运维的AI计算平台。
  • 在同一个环境中完成模型训练过程。

OpenPAI使用体验

​ 在安装扩展OpenPAI VS Code后,可直接在VS Code中使用OpenPAI。

  1. Use shortcut key Ctrl+Shift+P to open command palette.

  2. input and look for PAI:Add PAI Cluster as below.

  3. press Enter,and it takes to input the host of OpenPAI.

  4. 之后,会弹出的集群配置文件,填写"username"和”password”并保存配置。

  5. 添加文件,文件夹需要包含以下项:

    • _init__.py: 用于调用filetrans.py
    • filetrans.py:实现hdfs和docker container之间的数据传输操作。主要实现数据download和upload
    • run_samples.py:实现整个训练过程,包括下载数据,训练模型,上传结果模型
    • train.sh: 训练模型的脚本命令
  6. 添加任务:

    • 双击Create Job Config…创建配置文件。本例中直接copy了实例中的JSON文件,修改了jobname(便于后面辨认出自己提交的任务)
     {
         "jobName": "jyh_test_couplet_001",
         "image": "tobeyqin/pai.build.cu80:my",
         "codeDir": "$PAI_DEFAULT_FS_URI/$PAI_USER_NAME/$PAI_JOB_NAME",
         "dataDir": "$PAI_DEFAULT_FS_URI/Data/$PAI_JOB_NAME",
         "outputDir": "$PAI_DEFAULT_FS_URI/Output/$PAI_JOB_NAME",
         "taskRoles": [
             {
                 "name": "test_001",
                 "taskNumber": 1,
                 "cpuNumber": 2,
                 "gpuNumber": 1,
                 "memoryMB": 8192,
                 "command": "pip3 --quiet install future && cd $PAI_JOB_NAME && chmod +x train.sh && python3 run_samples.py"
             }
         ]
     }
  7. 提交任务:

    在配置文件中,单机鼠标右键,选择Submit Job to PAI Cluster,提交任务。

  8. 查看状态:

    提交任务后,PAI Client会在右下角提示Open Web Portal,点击可打开OpenPAI的web
    portal,查看任务的运行状态。

1613934-20190513103738085-1269212275.png
1613934-20190513103432941-1954413916.png

  1. 完成训练:

    当任务状态变成successed时,即完成训练过程。并且将训练模型结果传回hdfs。在程序中,我们编写的默认传回路径为output/目录下,以JobName命名的文件夹中。

1613934-20190513103750612-630758736.png

  1. 下载模型:

    用户可以在PAI CLUSTER EXPLORER下的集群中,双击Open HDFS,打开HDFS explorer。在/Beihang_Couplet/output/目录下,右键单击JobName命名的文件夹,选择Download,下载模型文件。

OpenPAI使用心得

​ OpenPAI配合VScode客户端使用,操作非常简单便捷,Web UI界面也很简洁明了。在本例中用了两个半小时就完成了对联项目的数据训练,让我体验到了云部署的强大算力的便捷高效。

在使用中用到的问题

​ 在进入HDFS EXPlORER后想返回到PAI CLUSTER EXPLORER时要输入命令“EXPLORER: focus on PAI cluster explorer view",感觉比较麻烦(不知道是不是我操作有问题)
1613934-20190513102545229-1056823501.png

1613934-20190513102553520-1146062749.png

1613934-20190513102602264-1009361861.png

转载于:https://www.cnblogs.com/JiaoYh98/p/10855228.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值