驱动云初使用—DogsVsCats训练测试

最新推荐文章于 2024-10-18 00:00:00 发布

lishiyun_9527

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量610

点赞数

分类专栏：驱动云平台大模型搭建使用文章标签： python 人工智能深度学习

本文链接：https://blog.csdn.net/lishiyun_9527/article/details/133173560

版权

驱动云平台大模型搭建使用专栏收录该内容

1 篇文章 0 订阅

订阅专栏

驱动云初使用—DogsVsCats部署训练测试

目的

学习驱动云平台的使用，使用驱动云平台内置的docker镜像与数据集资源，创建出自己需要的开发环境，熟悉平台的使用后，后续准备利用平台的GPU资源自己探索部署及微调LLM大语言模型。

操作步骤：

平台注册等按照操作手册进行，登录平台后点击项目。开始创建项目

在这里插入图片描述

点击确定后等待大约1分钟左右，开发环境实例创建成功，点击右上角进入开发环境，进入网页版shell终端，这就是熟悉的linux终端操作了
在这里插入图片描述

简单查看一下容器配置，显卡驱动貌似有问题，略显尴尬，但是无伤大雅，此次只是简单测试，直接使用cpu就行，后续需要时重新生成实例即可
在这里插入图片描述

当前就在代码挂载目录下，查看代码文件，编辑代码文件，打开源代码中注释的训练数据的操作shuffle过程
在这里插入图片描述

编写训练启动脚本
在这里插入图片描述

执行启动脚本命令bash train.sh
等待训练开始
在这里插入图片描述
初始化训练环境，需等待几分钟，看打印信息，其实训练过程是有使用GPU的，实际训练速度感受也是使用了GPU的，挺奇怪的

测试结果84.5%左右，接下来按照文档，离线再继续训练

修改启动脚本参数，增加epoch轮数

#!/bin/bash
python $GEMINI_RUN/DogsVsCats.py \
--num_epoch 20 \
--data_dir $GEMINI_DATA_IN1/DogsVsCats/ \
--train_dir $GEMINI_DATA_OUT

点击右上角提交训练任务
在这里插入图片描述
点击新建代码版本，创建新代码版本

在这里插入图片描述

选择配置
在这里插入图片描述
启动命令我没有按照文档写，自己封装了脚本，使用自己写的脚本

cd /gemini/code;bash train.sh

点击确定后跳转到训练任务界面，可以看到当前任务在等待中，让它慢慢练吧

在这里插入图片描述
等待几分钟，训练完成

导出模型

驱动云初使用就到此完成，整体还是比较简单，平台功能有好有坏，比较好的地方就是有较多的docker镜像可以直接使用，基本上常用的ai环境都有了，很方便。不好的点就是流程封装的太严实了，离线训练实例创建的过程中，可操作性不强，但是整体说来还是挺好的，后续会继续使用，关键是gpu资源丰富啊，还便宜，对于个人研究学习来说，简直不要太好，阿里云啥的玩不起。