学习目标
- 了解ModelArts训练之前各项准备工作
- 了解OBS、ModelArts以及Pycharm插件关系
- 掌握如何使用ModelArts平台进行网络训练
- 掌握如何查看训练日志和训练结果,具备基本的问题定界、定位能力
ModelArts上训练流程
- 准备工作
- 注册华为云账号,获取AK/SAK,授权ModelArts,并申请华为云代金券
- 获取训练数据集,并进行数据预处理,比如离线制作成tfrecords(建议,可选)
- 将数据集(训练脚本)上传到OBS
- 安装Pycharm IDE及ToolKit插件
- 对Tensorflow训练代码进行NPU迁移&适配
- 创建并提交训练任务
- Pycharm打开训练工程代码,配置训练参数,下发训练任务
- 查看训练结果
ModelArts官网教程:https://support.huaweicloud.com/modelarts/index.html
OBS Browser+下载:https://support.huaweicloud.com/browsertg-obs/obs_03_1000.html
ModelArts管理控制台:https://console.huaweicloud.com/modelarts/?region=cn-north-4#/dashboard
OBS/ModelArts/Pycharm的关系
- ModelArts平台:它是华为云面向AI开发者的一站式开发平台,开发者可以在云上进行数据处理、模型训练以及模型部署等操作,但它自身不具备存储服务。
- 对象存储服务(OBS):它是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。
- Pycharm插件ToolKit:为开发者快速的将本地代码提交到公有云的训练环境,协助用户完成代码上传、提交训练作业、将训练日志获取到本地展示等,用户只需要专注于本地的代码开发即可。
准备工作
申请注册华为云账号,获取AK/SAK,授权ModelArts,并申请华为云代金券
申请AK/SAK
登录华为云-账号中心-管理我的凭证
访问密钥-新增访问密钥
身份验证-立即下载
AK/ASK在下载的文件中
授权ModelArts
记得切换北京4
点击访问授权
选择使用访问密钥,将上一步的AK/SAK复制过来。
数据集获取
当前开源的训练脚本一般使用的都是开源数据集,例如Resnet的ImageNet,Bert的Wiki或SQuAD等,在GitHub或者Google上都可以搜索到。
作业的数据集比较小会在作业中提供
数据预处理
数据集上传OBS
数据集上传北京4区,有晟腾910计算资源,不要传错。
下载OBS
下载地址
选择对应版本即可
下载后双击安装即可
obs win 64附件链接
使用
账号名 AK SAK 都在之前下载的excel中有
选择华北四创建桶
安装Pycharm及插件
- 官网下载并安装2019.2及以上版本的Pycharm
- 根据链接下载并安装ToolKit插件:https://support.huaweicloud.com/tg-modelarts/modelarts_15_0003.html
下载toolkit
安装toolkit
配置toolkit
新窗口填入之前的AK/SAK
配置成功右下角会有弹窗
注意复制有可能会有空格导致配置失败
创建&提交训练任务
示例代码仓
boot file path 必须选择py文件
必选参数
obs默认路径只有40g
/cache 路径有3t的磁盘 大数据最好放在这里
需要调用moxing接口
写代码一定要写注释
obs路径 不带obs:/
问题定位
问题总结预留
我的代金券还没下来 实操遇到啥问题我再更新