驱动云初使用—DogsVsCats训练测试

驱动云初使用—DogsVsCats部署训练测试
目的

学习驱动云平台的使用,使用驱动云平台内置的docker镜像与数据集资源,创建出自己需要的开发环境,熟悉平台的使用后,后续准备利用平台的GPU资源自己探索部署及微调LLM大语言模型。

操作步骤:

平台注册等按照操作手册进行,登录平台后点击项目。开始创建项目

在这里插入图片描述

点击确定后等待大约1分钟左右,开发环境实例创建成功,点击右上角进入开发环境,进入网页版shell终端,这就是熟悉的linux终端操作了
在这里插入图片描述
在这里插入图片描述

简单查看一下容器配置,显卡驱动貌似有问题,略显尴尬,但是无伤大雅,此次只是简单测试,直接使用cpu就行,后续需要时重新生成实例即可
在这里插入图片描述

当前就在代码挂载目录下,查看代码文件,编辑代码文件,打开源代码中注释的训练数据的操作shuffle过程
在这里插入图片描述
在这里插入图片描述

编写训练启动脚本
在这里插入图片描述

执行启动脚本命令bash train.sh
等待训练开始
在这里插入图片描述
初始化训练环境,需等待几分钟,看打印信息,其实训练过程是有使用GPU的,实际训练速度感受也是使用了GPU的,挺奇怪的
在这里插入图片描述
测试结果84.5%左右,接下来按照文档,离线再继续训练
在这里插入图片描述

修改启动脚本参数,增加epoch轮数

#!/bin/bash
python $GEMINI_RUN/DogsVsCats.py \
--num_epoch 20 \
--data_dir $GEMINI_DATA_IN1/DogsVsCats/ \
--train_dir $GEMINI_DATA_OUT

点击右上角提交训练任务
在这里插入图片描述
点击新建代码版本,创建新代码版本

在这里插入图片描述
在这里插入图片描述

选择配置
在这里插入图片描述
启动命令我没有按照文档写,自己封装了脚本,使用自己写的脚本

cd /gemini/code;bash train.sh

点击确定后跳转到训练任务界面,可以看到当前任务在等待中,让它慢慢练吧

在这里插入图片描述
等待几分钟,训练完成
在这里插入图片描述
导出模型
在这里插入图片描述

驱动云初使用就到此完成,整体还是比较简单,平台功能有好有坏,比较好的地方就是有较多的docker镜像可以直接使用,基本上常用的ai环境都有了,很方便。不好的点就是流程封装的太严实了,离线训练实例创建的过程中,可操作性不强,但是整体说来还是挺好的,后续会继续使用,关键是gpu资源丰富啊,还便宜,对于个人研究学习来说,简直不要太好,阿里云啥的玩不起。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值