前言
看过很多关于使用云服务器跑模型的文章,发现写的不是很清除,我将尝试用最简洁易懂的语言描述如何使用FinalShell管理云服务器跑模型。
FinalShell的安装
可以参考这篇文章
租服务器
网上有很多组云服务器的,租服务器的过程都差不多。以恒源云为例:
选取需要的设备
在云市场中选择自己需要的设备
我这里选择的是一张3060的显卡,点击立即组就进入到服务器配置的界面了:
镜像配置
点击官方镜像下方的方框,配置运行环境。我的模型使用的是pytorch,我选择相对应的版本。
创建实例
配置好之后就可以点击右下角创建实例
点击创建实例后就会跳转到我的实例管理页面,在这可以对创建的实例进行管理。图下框中的是我上面选择的3060的服务器。
FinalShell连接服务器
首先运行FinalShell。这是我之前创建过的一些连接,如果之前租过的服务器处于空闲状态,将服务器租过来后,在你云服务器的实例管理页面启动对应的服务器,就可以直接快速连接了。
创建新的连接
点击左上方文件夹形状的UI,进入到连接管理器
建立一个新文件夹,操作:右键->新建->文件夹。
鼠标放文件夹上,右键->新建->ssh连接。
这时就蹦出来了新建连接界面,在这里我们将服务器的信息输入即可连接到服务器
信息配置
回到我的实例管理页面,复制登录指令。(点击右边的复制即可)
复制到txt文件中先查看一下
p后的47476为连接的端口号,root 是用户名,@之后的是主机的连接地址。名称可以随意输入
在将实例管理页面的密码复制过来即可点击确定
这里点左边两个的任意一个即可。
这样就连接成功了。
运行自己的模型
注意,租的这些服务器大多都是Linux操作系统,跟windows操作系统还是有很多区别的。
1.Linux没有盘的概念(例如windows存储空间分为C盘、D盘等),只有一个root根目录,是用的树结构
2.文件路径,Linux中使用的是左斜杠 '/',这个也要注意,比如你要用的数据集写的路径在widows操作系统中是D:\py\day43\data\imgs,如果不进行修改的话,会报文件路径的错误。
涉及Linux操作系统的使用我这里只是举出我在使用过程中经常犯错的地方。下面将继续介绍怎样训练自己的模型
上传需要训练的模型
找到root根目录
将自己的模型所在的文件夹拖到这个root文件夹下
这是我的模型文件,仅供参考(在我本地windows操作系统下)
将我的yolov8文件夹托到root根目录下,云服务器就开始创建文件夹并上传文件了
点击右上方的按钮可以查看上传的进度。
这里讲一下个人经验:
1.增强数据集的操作可以在服务器中进行,因为上传数据集是非常耗时间的。
2.别再晚上上传或者下载文件,速度非常慢
文件上传完成后,这里的颜色也会改变。
开始训练
找到你的启动训练的py文件,我的训练文件如下(仅供参考)
找到后,我们使用cd 命令进入到启动训练的py文件的目录下
运行该文件
在Linux中运行python文件的命令为 python 文件名,比如我的就是python cls_train.py
其中cls_train.py要使用你的文件名
第一次运行可能会报模块缺失的错,你只需要根据报错信息安装相应的库即可。
我的报了没有matplotlib库,安装一下
安装好模型需要的所有库后,再次运行启动训练的py文件,可以看见模型已经开始训练了
由于我使用的是yolov8模型,它内部使用了tqdm,所有在训练的过程中会打印出信息给反馈,若你使用的是自己搭建的网络,可能没有这些打印的信息。
下载训练好的权重文件
找到我的权重所在的位置
yolov8训练好之后,会在终端打印存放的位置,你只需要找到对应文件夹,右键对应的文件/文件夹,点击下载即可
下载的位置一般是在桌面,我框出的就是下载到你自己电脑的位置。
在我桌面上的这个文件夹中,打开文件夹
可以看见权重文件夹已经下载好了