AutoDL使用指南&&AutoDL中快速下载huggingface模型/数据集的方法

目录

0 前言

1 AutoDL使用指南

1.1 租显卡+VSCode Remote SSH远程快速连接:

1.2 AutoDL使用教程:1)创建实例 2)配置环境+上传数据 3)PyCharm2021.3专业版下载安装与远程连接完整步骤 4)实时查看tensorboard曲线情况:

1.3 官方文档

2 AutoDL中快速下载huggingface模型/数据集的方法

2.1 使用huggingface_hub库中的huggingface-cli

2.2 8大方法汇总(基于URL+CLI工具+专用CLI工具+Python方法)

2.3 HF-Mirror提供的四种办法

2.4 AutoDL学术上网

3 细节

3.1 社区镜像占用系统磁盘

3.2 配置环境时用什么模式?

3.3 pip install 速度很慢怎么办?(1MB/s,太慢了)

3.4 创建新的虚拟环境

3.5 SSH远程连接时报错"IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!"

3.6 Autodl查看tensorboard

3.7  利用Screen:SSH远程连接断开后模型仍保持运行

3.8 向服务器上传太多文件报错too many open files


0 前言

本文主要介绍“AutoDL使用指南&&AutoDL中快速下载huggingface模型/数据集的方法”,相当于是网上一些优质解决方案的汇总,大家可以有选择地查看相应部分。

1 AutoDL使用指南

1.1 租显卡+VSCode Remote SSH远程快速连接:

如果你是学生,请先看1.2完成学生认证享受优惠。

【AutoDL】【GPU】【租显卡】AutoDL 快速入门_autodl gpu-CSDN博客

1.2 AutoDL使用教程:1)创建实例 2)配置环境+上传数据 3)PyCharm2021.3专业版下载安装与远程连接完整步骤 4)实时查看tensorboard曲线情况:

AutoDL使用教程:1)创建实例 2)配置环境+上传数据 3)PyCharm2021.3专业版下载安装与远程连接完整步骤 4)实时查看tensorboard曲线情况-CSDN博客

超级详细!!!新手使用AutoDL跑深度学习(MixVPR项目)的学习记录-CSDN博客

1.3 官方文档

AutoDL帮助文档

2 AutoDL中快速下载huggingface模型/数据集的方法

2.1 使用huggingface_hub库中的huggingface-cli

如何在linux远程服务器上直接下载huggingface官网的模型/数据集

2.2 8大方法汇总(基于URL+CLI工具+专用CLI工具+Python方法)

如何快速下载huggingface模型——全方法总结 - 知乎

下载HuggingFace模型和数据集(免翻墙)_huggingface模型下载-CSDN博客

2.3 HF-Mirror提供的四种办法

HF-Mirror

方法一:网页下载

方法二:huggingface-cli

方法三:使用 hfd

方法四:使用环境变量(非侵入式)

2.4 AutoDL学术上网

AutoDL如何下载huggingface模型_autodl huggingface-CSDN博客

这点AutoDL官网说明手册里也有提及,不过实测提速不大,可能和个人网络有关:

AutoDL帮助文档

3 细节

3.1 社区镜像占用系统磁盘

当我们使用AutoDL用来跑Github上的某个项目时,如果该项目比较火(⭐比较多),可以选择社区镜像直接配置好相应的CUDA环境,项目也会同步克隆。

但是项目在克隆的时候会被克隆到系统盘"/root"下,如果项目比较大,系统磁盘的空间会被极大消耗,我们后续再pip install一些较大包的时候,就会提示我们剩余空间不足而下载失败。

解决办法:Vscode SSH远程连接后,直接把项目拖动到数据盘所在文件夹即可。

这里给出不占用系统盘空间的特殊文件夹:

/root/autodl-tmp

/root/autodl-nas

/root/autodl-pub

/root/autodl-fs

AutoDL帮助文档-系统盘空间不足的解决方案

3.2 配置环境时用什么模式?

使用无卡模式配置环境,每小时价格更低,0.1/h,配置好后训练推理则用有卡模式开机。

3.3 pip install 速度很慢怎么办?(1MB/s,太慢了)

开启学术资源加速,效果不好多试几次(亲测比换源有效)

AutoDL帮助文档——开启学术资源加速

3.4 创建新的虚拟环境

有的时候我们在Bash中用conda activate新创虚拟环境时,可能会遇到如下报错:

CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.

这是因为你的 shell 尚未被正确配置为支持 conda activate 命令。按照提示,你可以通过以下步骤解决这个问题:

1)初始化 Conda 的 shell 

conda init bash

2. 重新加载 Shell 配置文件

source ~/.bashrc 

然后再次尝试,问题就得到了解决

3.5 SSH远程连接时报错"IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!"

ssh登陆报错“IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!“问题原因及解决方法-CSDN博客

3.6 Autodl查看tensorboard

AutoDL帮助文档

AutoDL实时查看tensorboard曲线情况(结合官方文档使用)_autodl tensorboard-CSDN博客

3.7  利用Screen:SSH远程连接断开后模型仍保持运行

screen 是一个非常强大的工具,允许你在终端中创建多个会话并保持会话的持续性,即使你断开了连接,任务仍然会在后台继续运行。下面是如何使用 screen 的基本步骤:

1)安装 screen

大多数 Linux 系统默认安装了 screen。你可以通过以下命令检查是否已安装:

screen --version

如果没有安装,可以通过以下命令进行安装:

Debian/Ubuntu 系统

sudo apt-get install screen

CentOS/RHEL 系统

sudo yum install screen

2)启动 screen 会话

为会话指定一个名称(方便管理多个会话),可以使用:

screen -S session_name

3)运行命令

screen 会话中,你可以运行任何命令或程序。比如:

python your_script.py

此时即使你断开连接,程序也会继续在后台运行。

4)分离 (detach) 会话

如果你想退出当前的 screen 会话,但不希望它停止,可以按以下组合键来分离(detach)会话:

  • 按下 Ctrl + A,然后按 D

这将让你回到普通的终端界面,而 screen 会话依然在后台运行。

5)查看当前的会话

如果你有多个 screen 会话在运行,可以使用以下命令查看它们:

screen -ls

6)恢复(attach)会话

当你重新连接到服务器后,你可以恢复之前的 screen 会话。使用:

screen -r session_name

如果你有多个会话,可以通过 screen -r 后面跟上会话 ID 来恢复。

7) 终止会话

当你完成任务后,可以退出 screen 会话。首先,恢复(attach)到会话,然后输入:

exit

或者,你可以按 Ctrl + D 来结束会话。

8)清理screen 会话

会话分为Detached(分离)和 Attached(附加)两种状态:

1)清除单个screen会话:

先screen -ls查看所有会话及其状态,

如果会话是 Detached(已分离):

screen -X -S <session_id> quit

如果目标会话是 Attached:

你需要先将其分离(Ctrl+A,D),然后再终止。

或者你可以强制接管会话,你可以使用 -d -r 参数 来强制从当前终端“夺回控制权”:

screen -d -r 3584287

解释一下:

  • -d(detach):将当前正在使用 screen 的终端踢下线。

  • -r(resume):恢复会话。

2)清除所有 screen 会话的命令:

以下是一个通用的命令,可以杀死所有 screen 会话(无论它们是已分离还是已附着的)。这个命令会提取所有会话的 ID,然后逐一终止它们:

screen -ls | grep '\.' | cut -d'.' -f1 | awk '{print $1}' | xargs -I {} screen -X -S {} quit

3)使用以下命令清理已失效或僵尸的 screen 会话

(注:screen -wipe 后面不需要加会话名称,它会自动删除所有已经断开的 screen 会话记录。):

screen -wipe

该命令会移除那些不再活动的 screen 会话,确保你的 screen -ls 结果只显示有效的会话。

3.8 向服务器上传太多文件报错too many open files

文件太多(比如几千个 .jsonl、图片、结果文件等),容易触发“Too many files”限制

可以改为压缩包传输,将压缩包传输至服务器后:

unzip upload_data.zip
# 或
tar -xzvf upload_data.tar.gz
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值