如何白嫖GPU并训练自己的模型(以九天 毕昇 为例)
随着深度学习的火热,越来越多的人开始使用深度学习的方法解决自己研究领域的问题,但是在训练模型的时候往往遇到实验室GPU使用拥挤的问题,这时候就需要找一些云GPU使用了,但对于大部分学生党来说,租用GPU是一笔不小的开支。因此这时候就需要找一些免费的、可白嫖的了。找到了捏,又不一定能够快速上手使用,因此本文针对该类现状,详细介绍一种免费云GPU的使用,以帮助学生党快速入手云GPU并训练自己的模型。
1.打开网站
九天 毕昇: https://jiutian.10086.cn/edu/#/home
右上角注册登录
2.先签到领豆再进入控制台
3. 新建实例
依次点击 模型训练、单机训练、新建实例
4.选用套餐
实例名称:自己随意取
数据集:可以根据自身需求选择,也可以不选择数据集
资源套餐:
①CPU:一般用于编写代码,测试简单python程序
②V100虚拟化:有8G显存的GPU
③V100:基本上选不到
我们选择第②个V100虚拟化
5.启动
稍等片刻后点击 jupyter 启动
启动后,耐心等待加载
6.选择操作界面
可以点击左上角 蓝色+ 号添加更多操作界面
可选notebook我最喜欢命令行,我这里打开两个命令行,一个用以执行程序,一个用来看GPU使用情况
先打开teminal一个、再添加一个
7.上传文件
我个人偏向使用命令行操作
我先创建一个文件夹
mkdir test
进入新建的文件夹
再从gitee上下载文件(下载的文件是使用CNN进行手写数字识别的程序)
cd test
git clone https://gitee.com/ming-ming-0201/handwritten-number-recognition.git
进入下载后的文件夹、再使用ls查看文件目录
cd handwritten-number-recognition
ls
文件里面有一个train.py和test.py
8.确定虚拟环境
根据自己代码的要求确定python虚拟环境,我的程序需要torch,因此只要含有torch就行,也可以自行去创建虚拟环境再自行安包
查看有哪些环境
conda env list
我这里选用其中的pytorch1.8环境
激活环境
conda activate pytorch1.8
9.训练模型
要训练的程序里面,需要自己提前写好调用GPU的代码
如果是多GPU的代码,请将GPU使用序号改为 0
命令行执行 train.py
python train.py
差一个包
安装一下
pip install tqdm
命令行再执行 train.py
python train.py
稍等片刻,程序跑起来了
10.查看一下GPU使用情况
打开另一个命令行去查看
输入命令查看GPU使用情况
nvidia-smi
GPU有8G显存,这里才占用1.2G,还有很大余量捏。
11.关闭实例
回到实例首页,点击停止
结尾语:该平台使用还有很多操作,需要大家自行探索,能有免费的GPU使用,还是挺不错的,为移动点赞!