该项目通过使用驱动云平台(趋动云-连接算力·连接人 (virtaicloud.com))发放的免费算力调用GPU资源跑猫狗识别类型。本文主要解释其中一些步骤的含义及其注意事项。
【学习教程】:
https://nuly9zxzf1.feishu.cn/docx/HOmzdmST9oc43gxjTF0c7PAAnnb
【打卡链接】:
https://nuly9zxzf1.feishu.cn/share/base/form/shrcnRiAG8rOTlCx4d4rgxjpQmd
Setp1 学习准备:
Setp2 创建项目:
1.进入趋动云用户工作台,在当前空间处选择注册时系统自动生成的空间(其他空间无免费算力);即不用管空间,直接创建项目就行,你进入工作台时默认就在那个空间
2.添加镜像时一定要选TensorFlow 2.x 2.10.1版本的,注意看图
3.选择公开数据集时一定要用搜索“dog”,一个一个找太慢了,选择驱动云官方助手发布的那个数据集
添加镜像是省去了在自己的电脑上配置环境的繁琐步骤,直接用它准备好的环境云上运行调试
数据集是用来训练模型时使用的,可以用公开的也可以自己创建数据集(比如自己去网上搜索或通过爬虫爬取等)
Setp3 准备代码
将代码文件传输到项目中,进行调试和运行
Setp4 初始化开发环境:
1.上传代码时选择文件夹中的第一个.py文件上传,不要选择第二个或上传整个文件夹、
此步骤是为了配置资源环境,比如要用到几个GPU,显存多少等等等
Setp5 调试代码:
1.我们在jupyter中调试代码,对于py文件,可以在终端运行,也可以复制下来放在jupyter中的代码框运行
2.注意 您只能在/gemini/code/ 目录下编辑和新增代码,其他文件夹均属于 临时存储,临时存储是开发环境本身运行需占用的存储,代码保存在临时存储中将加速 临时存储 耗尽,易导致您的开发环境重启,重启后您保存在 临时存储 中的代码将丢失。
3.当在终端无法运行代码时,可能是因为复制时把空格也给复制了,注意检查
4.数据集有可能是有序的,有可能是无序的。如果正例集中在前面,负例集中在后面,那么便会导致验证集或测试集会出现大部分是负例的情况。很有可能导致负例训练效果不佳,模型整体性能变差。此外,就算不是有序的,打乱也会显得更为“公平”,也给模型提升多一份机会。(即随机划分出的某个数据集可能更能代表整体数据(包括未收集到的数据))。所以打乱是很有必要的。
5.删除”#“时一定要将代码前面对齐,不然会运行失败。
Setp6 提交离线训练
将当前版本代码保存,并且重新运行一次,将训练结果保存在$GEMINI_DATA_OUT 目录下
Setp7 结果存储与下载
将训练好的模型保存下来,此时可下载模型并将模型部署到应用中。