Hugging Face模型下载方法指南

llmbe

已于 2025-03-09 17:36:54 修改

阅读量2.1k

点赞数 33

分类专栏：大模型文章标签：人工智能 python pip

于 2025-02-28 23:00:09 首次发布

本文链接：https://blog.csdn.net/qq_33474415/article/details/145939570

版权

大模型专栏收录该内容

3 篇文章

订阅专栏

一、通过代码自动下载（推荐）

二、使用huggingface_hub库（适合批量或受限模型）

三、手动下载文件（适用于无代码环境）

四、使用Git LFS下载（适合大型模型）

五、镜像加速与离线方案

注意事项

一、通过代码自动下载（推荐）

使用transformers库：首次调用from_pretrained()函数时会自动下载模型文件到本地缓存目录（默认路径为~/.cache/huggingface/transformers）。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased")

指定缓存路径：通过cache_dir参数自定义下载目录：

model = AutoModel.from_pretrained("bert-base-uncased", cache_dir="/your/custom/path")

二、使用`huggingface_hub`库（适合批量或受限模型）

对于需要访问权限的模型（如Llama2），需先登录并获取访问令牌：

安装库并登录：

pip install huggingface_hub
huggingface-cli login

下载模型：

from huggingface_hub import snapshot_download
repo_id = "meta-llama/Llama-2-70b-hf"
local_dir = "/path/to/save/model"
snapshot_download(repo_id=repo_id, local_dir=local_dir, ignore_patterns=["*.bin"])

三、手动下载文件（适用于无代码环境）

访问模型页面：在Hugging Face模型库搜索目标模型（如bert-base-uncased）。
下载关键文件：进入模型页面的"Files and versions"标签页，下载以下必要文件：
1. 核心文件：config.json（配置）、pytorch_model.bin或tf_model.h5（权重）、vocab.json（词表）。
2. 附加文件：tokenizer.json、tokenizer_config.json等（分词器相关）。
本地加载：将文件保存到指定目录后，通过路径加载：
```
model = AutoModel.from_pretrained("./local_model_dir")
```

四、使用Git LFS下载（适合大型模型）

安装Git LFS：

# Linux
sudo apt-get install git-lfs
git lfs install

# Windows（需先安装Git）
git lfs install

克隆仓库：

git clone https://huggingface.co/bert-base-uncased

五、镜像加速与离线方案

国内镜像：使用镜像站点（如hf-mirror.com）加速下载：

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
# 之后正常使用from_pretrained()

离线使用：将模型文件部署到服务器后，设置环境变量：

export TRANSFORMERS_OFFLINE=1

注意事项

文件完整性：确保下载的文件名称与官方一致，否则加载可能失败。
安全风险：避免加载来源不明的模型，防止恶意代码注入。
权限问题：部分模型（如Llama2）需申请权限才能下载。