怎么在AutoDL上面使用HuggingFace(亲测有效)

🍃作者介绍:双非本科大四网络工程专业在读,阿里云专家博主,前三年专注于Java领域学习,擅长web应用开发,目前专注于人工智能领域相关知识🌹
🦅个人主页:@逐梦苍穹(5600粉丝;60万访问量)
✈ 您的一键三连,是我创作的最大动力🌹

前言

先介绍一下二者:

  • AutoDL是一个算力租赁平台,可以在上面租A100和4090等一众GPU;
  • HuggingFace是一个开源社区,提供了很多开源模型,同时也提供了很多相关的python库,供开发者更好的训练/微调模型。

那么在AutoDL上使用HuggingFace相关库最大的问题是什么呢,是HuggingFace是国外网站,下载需要科学上网,但是AutoDL是国内的

解决方法

镜像网站:https://hf-mirror.com/

解决方法有三种,直接参考镜像网站的方法:

方法一:网页下载

https://hf-mirror.com/搜索,并在模型主页的Files and Version中下载文件

方法二:huggingface-cli

  1. 安装依赖pip install -U huggingface_hub

  2. 设置环境变量

    • Linuxexport HF_ENDPOINT=https://hf-mirror.com
    • Windows Powershell$env:HF_ENDPOINT = “https://hf-mirror.com”
  3. 下载

    • 下载模型: huggingface-cli download --resume-download gpt2 --local-dir gpt2
    • 下载数据集huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext
    • 可以添加 –local-dir-use-symlinks False 参数禁用文件软链接,这样下载路径下所见即所得

方法三:使用 hfd✨

hfd 是这个镜像站开发的 huggingface 专用下载工具,基于成熟工具 aria2,可以做到稳定高速下载不断线。

  1. 下载hfd
    • wget https://hf-mirror.com/hfd/hfd.sh
    • chmod a+x hfd.sh
  2. 安装aria2
    • sudo apt update
    • sudo apt install aria2
  3. 设置环境变量
    • Linuxexport HF_ENDPOINT=https://hf-mirror.com
    • Windows Powershell$env:HF_ENDPOINT = “https://hf-mirror.com”
  4. 下载
    • 下载模型./hfd.sh dreamingInTheSky-xzl2211/llama3.1-8B-BilingualTranslation
    • 下载数据集./hfd.sh dreamingInTheSky-xzl2211/BilingualData --dataset

哪个好用

亲测”方法三:使用hfd“最稳定最有效,使用方法二也可以下载完成,但是不能中断。
所以建议使用hdf的方式:
在这里插入图片描述

### 使用 Hugging Face 进行自动下载模型或数据集 对于希望简化工作流程并提高效率的开发人员来说,Hugging Face 提供了多种方法来实现模型和数据集的自动化下载。通过 `transformers` 和 `datasets` 库可以轻松完成这一目标。 #### 自动化下载模型 为了能够自动下载预训练好的模型,可以通过安装 Python 的 `transformers` 库,并利用其中提供的类加载器来指定想要使用的特定模型名称。这会触发后台自动拉取对应资源到本地缓存目录中[^1]。 ```python from transformers import AutoModelForSequenceClassification, AutoTokenizer model_name = "bert-base-uncased" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) ``` 这段代码展示了如何仅需几行简单的命令就能获取 BERT 模型及其分词工具。一旦指定了模型的名字,API 就会在背后处理所有的细节,包括版本控制以及依赖关系管理等复杂逻辑[^2]。 #### 数据集的自动化获取 同样地,在处理 NLP 或其他领域内的任务时,如果需要访问某些常用的数据集合,则可以直接调用 `datasets` 库中的函数来进行操作。下面的例子说明了怎样简单地加载 GLUE 基准试里的 SST-2 子集: ```python from datasets import load_dataset dataset = load_dataset('glue', 'sst2') print(dataset['train'][0]) ``` 上述脚本不仅实现了远程服务器上存储的数据同步至本地环境的功能,而且还支持增量更新机制——即只传输自上次请求以来发生变化的部分内容,从而节省带宽消耗并加快速度[^3]。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

逐梦苍穹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值