国内如何下载huggingface模型、数据集

本文介绍了如何通过HuggingFace的镜像网站下载大模型,如Bloom-560M,包括使用wget下载、设置环境变量`HF_ENDPOINT`以及在没有安装依赖时进行pip升级安装HuggingFaceHub的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

镜像网站1:https://hf-mirror.com/
镜像网站2:https://aliendao.cn/#/

可以直接使用wget下载

镜像1也可以在终端直接

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download --local-dir-use-symlinks False bigscience/bloom-560m --local-dir bloom-560m

若没有安装依赖,则

pip install -U huggingface_hub
### 使用 Hugging Face 模型数据集的详细步骤 #### 加载预训练模型 为了加载来自 Hugging Face 的预训练模型,可以利用 `transformers` 库中的类来简化这一过程。通过指定模型名称作为字符串参数传递给相应的类构造函数,能够轻松实例化一个特定架构下的预训练权重版本。 ```python from transformers import AutoModelForSequenceClassification, AutoTokenizer model_name = "distilbert-2-english" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) ``` 上述代码展示了如何加载名为 `"distilbert-base-uncased-finetuned-sst-2-english"` 的序列分类任务上的微调版 DistilBERT 模型及其配套分词器[^4]。 #### 获取并处理数据集 Hugging Face 提供了一个方便的数据集库 (`datasets`) 来访问各种公开可用的数据集合。下面的例子说明了怎样从该平台拉取一个标准 NLP 数据集,并对其进行初步探索: ```python from datasets import load_dataset dataset = load_dataset('glue', 'mrpc') print(dataset['train'][0]) ``` 这段脚本会下载 GLUE 基准测试中的 MRPC 子集,并打印第一条记录的内容以便查看其结构。 #### 对输入文本进行编码 一旦拥有了合适的 tokenizer 实例之后,就可以准备将原始字符串转换成适合喂入神经网络的形式——即 token IDs 列表加上其他辅助信息(比如 attention masks)。这一步骤通常由 tokenizer 自动完成。 ```python text = ["Replace me by any text you'd like."] encoded_input = tokenizer(text, padding=True, truncation=True, max_length=128, return_tensors='pt') print(encoded_input.input_ids) ``` 这里定义了一条简单的英文句子作为待编码对象;随后调用了之前初始化好的 tokenizer 完成了必要的预处理工作,最终得到 PyTorch 张量形式的结果。 #### 执行推理操作 最后,在准备好所有前提条件的基础上,便可以直接向已加载完毕的模型传参以获得预测输出。对于某些类型的模型而言,可能还需要额外设置一些选项才能正确解析返回值的意义。 ```python import torch with torch.no_grad(): outputs = model(**encoded_input) logits = outputs.logits predicted_class_id = logits.argmax().item() print(f"Predicted class ID: {predicted_class_id}") ``` 此部分实现了基于前面构建起的 pipeline 进行一次实际推断的过程,从中提取出类别标签编号并显示出来。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值