目录
1.1 租显卡+VSCode Remote SSH远程快速连接:
1.2 AutoDL使用教程:1)创建实例 2)配置环境+上传数据 3)PyCharm2021.3专业版下载安装与远程连接完整步骤 4)实时查看tensorboard曲线情况:
2 AutoDL中快速下载huggingface模型/数据集的方法
2.1 使用huggingface_hub库中的huggingface-cli
2.2 8大方法汇总(基于URL+CLI工具+专用CLI工具+Python方法)
3.3 pip install 速度很慢怎么办?(1MB/s,太慢了)
3.5 SSH远程连接时报错"IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!"
3.7 利用Screen:SSH远程连接断开后模型仍保持运行
3.8 向服务器上传太多文件报错too many open files
0 前言
本文主要介绍“AutoDL使用指南&&AutoDL中快速下载huggingface模型/数据集的方法”,相当于是网上一些优质解决方案的汇总,大家可以有选择地查看相应部分。
1 AutoDL使用指南
1.1 租显卡+VSCode Remote SSH远程快速连接:
如果你是学生,请先看1.2完成学生认证享受优惠。
【AutoDL】【GPU】【租显卡】AutoDL 快速入门_autodl gpu-CSDN博客
1.2 AutoDL使用教程:1)创建实例 2)配置环境+上传数据 3)PyCharm2021.3专业版下载安装与远程连接完整步骤 4)实时查看tensorboard曲线情况:
AutoDL使用教程:1)创建实例 2)配置环境+上传数据 3)PyCharm2021.3专业版下载安装与远程连接完整步骤 4)实时查看tensorboard曲线情况-CSDN博客
超级详细!!!新手使用AutoDL跑深度学习(MixVPR项目)的学习记录-CSDN博客
1.3 官方文档
2 AutoDL中快速下载huggingface模型/数据集的方法
2.1 使用huggingface_hub库中的huggingface-cli
如何在linux远程服务器上直接下载huggingface官网的模型/数据集
2.2 8大方法汇总(基于URL+CLI工具+专用CLI工具+Python方法)
如何快速下载huggingface模型——全方法总结 - 知乎
下载HuggingFace模型和数据集(免翻墙)_huggingface模型下载-CSDN博客
2.3 HF-Mirror提供的四种办法
方法一:网页下载
方法二:huggingface-cli
方法三:使用 hfd
方法四:使用环境变量(非侵入式)
2.4 AutoDL学术上网
AutoDL如何下载huggingface模型_autodl huggingface-CSDN博客
这点AutoDL官网说明手册里也有提及,不过实测提速不大,可能和个人网络有关:
3 细节
3.1 社区镜像占用系统磁盘
当我们使用AutoDL用来跑Github上的某个项目时,如果该项目比较火(⭐比较多),可以选择社区镜像直接配置好相应的CUDA环境,项目也会同步克隆。
但是项目在克隆的时候会被克隆到系统盘"/root"下,如果项目比较大,系统磁盘的空间会被极大消耗,我们后续再pip install一些较大包的时候,就会提示我们剩余空间不足而下载失败。
解决办法:Vscode SSH远程连接后,直接把项目拖动到数据盘所在文件夹即可。
这里给出不占用系统盘空间的特殊文件夹:
/root/autodl-tmp
/root/autodl-nas
/root/autodl-pub
/root/autodl-fs
3.2 配置环境时用什么模式?
使用无卡模式配置环境,每小时价格更低,0.1/h,配置好后训练推理则用有卡模式开机。
3.3 pip install 速度很慢怎么办?(1MB/s,太慢了)
开启学术资源加速,效果不好多试几次(亲测比换源有效)
3.4 创建新的虚拟环境
有的时候我们在Bash中用conda activate新创虚拟环境时,可能会遇到如下报错:
CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
这是因为你的 shell 尚未被正确配置为支持 conda activate
命令。按照提示,你可以通过以下步骤解决这个问题:
1)初始化 Conda 的 shell
conda init bash
2. 重新加载 Shell 配置文件
source ~/.bashrc
然后再次尝试,问题就得到了解决
3.5 SSH远程连接时报错"IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!"
ssh登陆报错“IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!“问题原因及解决方法-CSDN博客
3.6 Autodl查看tensorboard
AutoDL实时查看tensorboard曲线情况(结合官方文档使用)_autodl tensorboard-CSDN博客
3.7 利用Screen:SSH远程连接断开后模型仍保持运行
screen
是一个非常强大的工具,允许你在终端中创建多个会话并保持会话的持续性,即使你断开了连接,任务仍然会在后台继续运行。下面是如何使用 screen
的基本步骤:
1)安装 screen
大多数 Linux 系统默认安装了 screen
。你可以通过以下命令检查是否已安装:
screen --version
如果没有安装,可以通过以下命令进行安装:
Debian/Ubuntu 系统:
sudo apt-get install screen
CentOS/RHEL 系统:
sudo yum install screen
2)启动 screen
会话
为会话指定一个名称(方便管理多个会话),可以使用:
screen -S session_name
3)运行命令
在 screen
会话中,你可以运行任何命令或程序。比如:
python your_script.py
此时即使你断开连接,程序也会继续在后台运行。
4)分离 (detach
) 会话
如果你想退出当前的 screen
会话,但不希望它停止,可以按以下组合键来分离(detach)会话:
- 按下
Ctrl + A
,然后按D
。
这将让你回到普通的终端界面,而 screen
会话依然在后台运行。
5)查看当前的会话
如果你有多个 screen
会话在运行,可以使用以下命令查看它们:
screen -ls
6)恢复(attach)会话
当你重新连接到服务器后,你可以恢复之前的 screen
会话。使用:
screen -r session_name
如果你有多个会话,可以通过 screen -r
后面跟上会话 ID 来恢复。
7) 终止会话
当你完成任务后,可以退出 screen
会话。首先,恢复(attach)到会话,然后输入:
exit
或者,你可以按 Ctrl + D
来结束会话。
8)清理screen
会话
会话分为Detached
(分离)和 Attached
(附加)两种状态:
1)清除单个screen
会话:
先screen -ls查看所有会话及其状态,
如果会话是 Detached(已分离):
screen -X -S <session_id> quit
如果目标会话是 Attached:
你需要先将其分离(Ctrl+A,D),然后再终止。
或者你可以强制接管会话,你可以使用 -d -r
参数 来强制从当前终端“夺回控制权”:
screen -d -r 3584287
解释一下:
-
-d
(detach):将当前正在使用 screen 的终端踢下线。 -
-r
(resume):恢复会话。
2)清除所有 screen 会话的命令:
以下是一个通用的命令,可以杀死所有 screen 会话(无论它们是已分离还是已附着的)。这个命令会提取所有会话的 ID,然后逐一终止它们:
screen -ls | grep '\.' | cut -d'.' -f1 | awk '{print $1}' | xargs -I {} screen -X -S {} quit
3)使用以下命令清理已失效或僵尸的 screen
会话
(注:screen -wipe 后面不需要加会话名称,它会自动删除所有已经断开的 screen
会话记录。):
screen -wipe
该命令会移除那些不再活动的 screen
会话,确保你的 screen -ls
结果只显示有效的会话。
3.8 向服务器上传太多文件报错too many open files
文件太多(比如几千个 .jsonl
、图片、结果文件等),容易触发“Too many files”限制
可以改为压缩包传输,将压缩包传输至服务器后:
unzip upload_data.zip
# 或
tar -xzvf upload_data.tar.gz