国内如何下载huggingface模型、数据集

Wanderer X

已于 2024-01-22 16:10:31 修改

阅读量5.1k

点赞数 16

分类专栏：配置文章标签：深度学习

于 2024-01-03 19:40:28 首次发布

本文链接：https://blog.csdn.net/wandererXX/article/details/135371458

版权

配置专栏收录该内容

21 篇文章

订阅专栏

本文介绍了如何通过HuggingFace的镜像网站下载大模型，如Bloom-560M，包括使用wget下载、设置环境变量`HF_ENDPOINT`以及在没有安装依赖时进行pip升级安装HuggingFaceHub的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

镜像网站1：https://hf-mirror.com/
镜像网站2：https://aliendao.cn/#/

可以直接使用wget下载

镜像1也可以在终端直接

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download --local-dir-use-symlinks False bigscience/bloom-560m --local-dir bloom-560m

若没有安装依赖，则

pip install -U huggingface_hub

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Wanderer X

关注关注

16
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

快速方便地下载huggingface的模型库和数据集

zik的博客

07-30

5954

使用方法：将hfd.sh拷贝过去，然后参考下面的参考命令，下载数据集或者模型。欢迎大家关注笔者，你的关注是我持续更博的最大动力。或克隆此存储库，然后授予脚本执行权限。这个代码不能保持目录结构，见下面的改进版。获取huggingface令牌，然后。中，这个命令行工具巧妙地利用。来处理 LFS 文件，并使用。为了方便起见，您可以创建一个别名。原创文章，转载告知，盗版必究。首先，下载 hfd.sh。

[2024-06]-[大模型]-[huggingface] 国内优雅的下载huggingface的模型与数据集

SimonChen

06-12

1377

官方的 huggingface-cli 缺乏多线程下载支持,以及 hf_transfer 错误处理不足的问题,而且要求很稳定的梯子，我之前使用经常下载一会就失败了。需要使用hfd.sh脚本，下载连接是，欢迎fork and star！

参与评论您还未登录，请先登录后发表或查看评论

从 Hugging Face 国内镜像下载模型

weixin_43828027的博客

01-31

1210

使用 huggingface-cli download 命令批量下载模型，指定 --local-dir 参数保存到本地目录。

Hugging Face镜像——再也不用烦恼无法从Hugging Face下载模型和数据集了

最新发布

oscar999的专栏

03-26

2516

在AI　开发的时候很多时候会从Hugging Face下载模型和数据集，但是直接访问会提升速度慢或者无法下载，解决方法就是使用Hugging Face 的中国镜像。镜像站地址为：。这个镜像由国内开发者维护，支持模型、数据集、库文件的加速下载。datasets首先安装依赖，然后设置环境变量。

huggingface使用国内镜像站下载

gaoxukkk888的博客

09-29

2万+

以Qwen1.5-0.5B-chat为例，我们先进入到https://hf-mirror.com/models去搜索Qwen1.5-0.5B-chat，会跳转到下面的页面。huggingface开源的模型托管仓库，预训练模型的数量已超过30万个，并且任何模型在下载之前都可以使用huggingface提供的spaces空间去测试效果。HF-Mirror网站主页提供了几个下载方法，这里使用方法二-借助huggingface-cli，huggingface-cli。建议将上面这一行写入。

下载HuggingFace模型和数据集（免翻墙）

sinat_29950703的博客

10-18

1万+

官方的 huggingface-cli 命令行工具这个知乎博主总结的很全面我用下面这个流程下载就OK。

国内快速下载huggingface模型

nanjono的博客

03-27

1202

【代码】国内快速下载huggingface模型。

huggingface国内下载

m0_57332527的博客

01-13

1163

../venv/lib/python3.9/site-packages/carvekit/utils/download_models.py这里面的HuggingFaceCompatibleDownloader类中的base_url: str = ""，当然这只是一个案例，具体情况需要根据具体的下载器来更改。，例如我使用carvekit库的时候，里面会重新链接到。但是，有时候python程序并没有对。进行下载，直接毕其功于一役，修改。

HuggingFace 国内下载阿里云盘下载速度20MB/s

jieshenai的博客

10-25

2481

国内使用阿里云盘下载huggingface模型权重。海外服务器上传模型到阿里云盘。

本地下载huggingface模型并在服务器上使用流程

weixin_44151034的博客

06-24

7670

AutoModelForSequenceClassification 类是基于PyTorch的，因此需要安装PyTorch才能使用。我发现：大家加载huggingface模型，基本都是使用这两条代码来下载相关的文件的，所以我们只要找到这两条代码在哪里，就能找到文件的下载位置。但是我还是感觉很奇怪，就是它们是怎么知道需要把模型下载到哪里的，我能不能下次代码报错，自己发现需要把代码下载到哪里？之后我就通过代码连接不成功的报错，还有一些调试搜索方法，在这个头文件中找到这两行相关代码。参考了上面的帖子，找到了。

通过代理服务器连接 huggingface下载数据集或模型

道纪书生的博客

07-05

1823

通过代理服务器连接 huggingface下载数据集或模型

HuggingFace模型下载全流程（国内源）

qq_42610612的博客

02-19

1384

服务器代理也配了，huggingface-cli 了一下午，愣是没下载成，故撰此文，以示吾之愚。国内的魔搭（ModelScope）社区作为huggingface的平替，官方给了很多下载示例，无论是python还是命令行，都是非常简单易上手，这里就不多说了。但是，相比于huggingface，魔搭还是有很多不足的，比如某个大模型的AWQ、GPTQ不同位数的量化版本等。因此，有些情况下还是不得不拥抱下脸脸。

如何快速下载huggingface模型

热门推荐

weixin_43196262的博客

12-28

3万+

国内开源镜像上面总结了多种从上下载模型的方法，如下图。

国内高速下载huggingface上的模型

提笔忘字的帝国

11-28

1万+

Python版本至少是3.8。安装hugging face官方提供的下载工具，配置镜像。

国内下载huggingface模型的几种方式

Dlite的技术笔记

05-28

2534

要将 huggingface.co 的域名自动映射到重定向到 hf-mirror.com，可以采取以下几种方法。

下载hugging face上的数据集

m0_55703957的博客

02-03

2493

输入这个命令即可下载：huggingface-cli download --repo-type dataset --token 你的token uoft-复制的数据集名 --local-dir 存放位置 --resume-download。当搜索数据集之后，浏览器给出的回答中包含hugging face，如果想使用hugging face上的数据集，按照下面的步骤即可成功下载(我使用的是Linux）然后找到数据集的名字：(这里我随便找了一个)直接点旁边的复制符号。

下载huggingface中数据集/模型(保存到本地指定路径)

MK422的博客

03-30

1万+

1.若需要将数据集/模型放在指定路径，需要指定"cache-dir"参数，而不是“local-dir”2.直接从huggingface中下载对应的模型和数据集，需要外网。因此可以使用国内镜像“HF-Mirror - Huggingface 镜像站。

Hugging Face模型下载方法小结

Maxcu的博客

03-31

6108

Hugging Face模型快速下载方法总结

huggingface模型和数据集使用步骤

01-05

### 使用 Hugging Face 模型和数据集的详细步骤 #### 加载预训练模型为了加载来自 Hugging Face 的预训练模型，可以利用 `transformers` 库中的类来简化这一过程。通过指定模型名称作为字符串参数传递给相应的类构造函数，能够轻松实例化一个特定架构下的预训练权重版本。 ```python from transformers import AutoModelForSequenceClassification, AutoTokenizer model_name = "distilbert-2-english" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) ``` 上述代码展示了如何加载名为 `"distilbert-base-uncased-finetuned-sst-2-english"` 的序列分类任务上的微调版 DistilBERT 模型及其配套分词器[^4]。 #### 获取并处理数据集 Hugging Face 提供了一个方便的数据集库 (`datasets`) 来访问各种公开可用的数据集合。下面的例子说明了怎样从该平台拉取一个标准 NLP 数据集，并对其进行初步探索： ```python from datasets import load_dataset dataset = load_dataset('glue', 'mrpc') print(dataset['train'][0]) ``` 这段脚本会下载 GLUE 基准测试中的 MRPC 子集，并打印第一条记录的内容以便查看其结构。 #### 对输入文本进行编码一旦拥有了合适的 tokenizer 实例之后，就可以准备将原始字符串转换成适合喂入神经网络的形式——即 token IDs 列表加上其他辅助信息（比如 attention masks）。这一步骤通常由 tokenizer 自动完成。 ```python text = ["Replace me by any text you'd like."] encoded_input = tokenizer(text, padding=True, truncation=True, max_length=128, return_tensors='pt') print(encoded_input.input_ids) ``` 这里定义了一条简单的英文句子作为待编码对象；随后调用了之前初始化好的 tokenizer 完成了必要的预处理工作，最终得到 PyTorch 张量形式的结果。 #### 执行推理操作最后，在准备好所有前提条件的基础上，便可以直接向已加载完毕的模型传参以获得预测输出。对于某些类型的模型而言，可能还需要额外设置一些选项才能正确解析返回值的意义。 ```python import torch with torch.no_grad(): outputs = model(**encoded_input) logits = outputs.logits predicted_class_id = logits.argmax().item() print(f"Predicted class ID: {predicted_class_id}") ``` 此部分实现了基于前面构建起的 pipeline 进行一次实际推断的过程，从中提取出类别标签编号并显示出来。