一、参考资料
AI平民化之路 - 华为云ModelArts和AI Gallery体验指南
【ModelArts】鹏城云脑实验平台(华为云ModelArts)使用教程
二、重要说明
-
本地IDE操作流程:
-
创建桶的区域需要与ModelArts所在的区域一致。例如:当前ModelArts在 华北-北京一区域,在对象存储服务创建桶时,请选择华北-北京一。如何查看OBS桶与ModelArts的所处区域,请参见查看OBS桶与ModelArts是否在同一区域。
-
请勿开启桶加密,ModelArts不支持加密的OBS桶,会导致ModelArts读取OBS中的数据失败。
-
ModelArts相当于容器,删除训练作业、notebook,对应的容器也被删除,导致容器中的数据丢失。obs支持数据持久化。
-
在ModelArts中执行脚本时,先在初始化过程中将脚本、数据集等相关文件从obs桶上传到容器,训练作业执行过程都是从容器中读取文件信息,作业执行产生的文件最终也要从容器存到obs桶。
-
notebook停止后,
/home/ma-user/work
目录下的数据会保存,其余目录下的内容会被清理。
三、相关介绍
3.1 OBS对象存储服务
对象存储服务(Object Storage Service,简称OBS)是一个 基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。对象存储服务OBS的基本组成是桶和对象。桶是OBS中存储对象的容器,每个桶都有自己的存储类别、访问权限、所属区域等属性,用户在互联网上通过桶的访问域名来定位桶。对象是OBS中数据存储的基本单位。
对ModelArts来说,OBS服务是一个数据存储中心,因为ModelArts本身目前没有数据存储的功能。AI 开发过程中的输入数据、输出数据、中间缓存数据都可以在OBS桶中进行存储、读取。 因此,在使用ModelArts之前您需要创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以 及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,建议在使用 ModelArts之前先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
3.2 ModelArts
ModelArts是面向开发者的一站式AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。
3.3 AI Gallery
AI Gallery是基于ModelArts发布的 AI应用市场,该功能极大降低了AI模型的开发门槛,基于AI Gallery的AI模型市场,即使用户不了解AI知识,通过订阅模型服务,也可以直接使用该模型。我觉得随着技术的进步和社会的发展,AI肯定是要趋于平民化的,而AI Gallery此项功能正是该方向的极大开拓者。
四、准备工作
- 下载数据集
- 安装 OBSBrowser客户端;
- OBS对象存储相关操作,参见下文;
五、OBS对象存储
打开对象存储控制台
---》创建桶
创建桶
区域:默认即可
桶名称:自定义(全局唯一性)
企业项目:default
其他:默认即可
六、自动学习
6.1 数据集准备
OBS桶创建文件夹
在OBS桶创建文件夹,用于存储数据集。
├── yunbao
│ ├── output # 数据集输出位置
│ ├── dataset # 数据集输入位置
│ │ ├── train # 训练集
│ │ └── eval # 测试集
上传数据集
上传 yunbao数据集
到 obs://liulingjun-demo/yunbao/dataset
路径。用OBSBrowser客户端或者网页端上传,推荐用OBSBrowser客户端上传。
6.2 关键步骤
创建项目
打开ModelArts控制台
---》自动学习
---》物体检测,创建项目
创建物体检测项目
名称:自定义
数据集名称:自定义
数据集输入位置:obs://liulingjun-demo/yunbao/dataset
数据集输出位置:obs://liulingjun-demo/yunbao/output
开始训练
训练完成
部署上线