驱动云初使用—DogsVsCats部署训练测试
目的
学习驱动云平台的使用,使用驱动云平台内置的docker镜像与数据集资源,创建出自己需要的开发环境,熟悉平台的使用后,后续准备利用平台的GPU资源自己探索部署及微调LLM大语言模型。
操作步骤:
平台注册等按照操作手册进行,登录平台后点击项目。开始创建项目
点击确定后等待大约1分钟左右,开发环境实例创建成功,点击右上角进入开发环境,进入网页版shell终端,这就是熟悉的linux终端操作了
简单查看一下容器配置,显卡驱动貌似有问题,略显尴尬,但是无伤大雅,此次只是简单测试,直接使用cpu就行,后续需要时重新生成实例即可
当前就在代码挂载目录下,查看代码文件,编辑代码文件,打开源代码中注释的训练数据的操作shuffle过程
编写训练启动脚本
执行启动脚本命令bash train.sh
等待训练开始
初始化训练环境,需等待几分钟,看打印信息,其实训练过程是有使用GPU的,实际训练速度感受也是使用了GPU的,挺奇怪的
测试结果84.5%左右,接下来按照文档,离线再继续训练
修改启动脚本参数,增加epoch轮数
#!/bin/bash
python $GEMINI_RUN/DogsVsCats.py \
--num_epoch 20 \
--data_dir $GEMINI_DATA_IN1/DogsVsCats/ \
--train_dir $GEMINI_DATA_OUT
点击右上角提交训练任务
点击新建代码版本,创建新代码版本
选择配置
启动命令我没有按照文档写,自己封装了脚本,使用自己写的脚本
cd /gemini/code;bash train.sh
点击确定后跳转到训练任务界面,可以看到当前任务在等待中,让它慢慢练吧
等待几分钟,训练完成
导出模型
驱动云初使用就到此完成,整体还是比较简单,平台功能有好有坏,比较好的地方就是有较多的docker镜像可以直接使用,基本上常用的ai环境都有了,很方便。不好的点就是流程封装的太严实了,离线训练实例创建的过程中,可操作性不强,但是整体说来还是挺好的,后续会继续使用,关键是gpu资源丰富啊,还便宜,对于个人研究学习来说,简直不要太好,阿里云啥的玩不起。