目录
二、使用huggingface_hub库(适合批量或受限模型)
一、通过代码自动下载(推荐)
- 使用
transformers
库:首次调用from_pretrained()
函数时会自动下载模型文件到本地缓存目录(默认路径为~/.cache/huggingface/transformers
)。from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModel.from_pretrained("bert-base-uncased")
- 指定缓存路径:通过
cache_dir
参数自定义下载目录:model = AutoModel.from_pretrained("bert-base-uncased", cache_dir="/your/custom/path")
二、使用huggingface_hub
库(适合批量或受限模型)
对于需要访问权限的模型(如Llama2),需先登录并获取访问令牌:
- 安装库并登录:
pip install huggingface_hub huggingface-cli login
- 下载模型:
from huggingface_hub import snapshot_download repo_id = "meta-llama/Llama-2-70b-hf" local_dir = "/path/to/save/model" snapshot_download(repo_id=repo_id, local_dir=local_dir, ignore_patterns=["*.bin"])
三、手动下载文件(适用于无代码环境)
-
访问模型页面:在Hugging Face模型库搜索目标模型(如
bert-base-uncased
)。 -
下载关键文件:进入模型页面的"Files and versions"标签页,下载以下必要文件:
-
核心文件:
config.json
(配置)、pytorch_model.bin
或tf_model.h5
(权重)、vocab.json
(词表)。 -
附加文件:
tokenizer.json
、tokenizer_config.json
等(分词器相关)。
-
- 本地加载:将文件保存到指定目录后,通过路径加载:
model = AutoModel.from_pretrained("./local_model_dir")
四、使用Git LFS下载(适合大型模型)
- 安装Git LFS:
# Linux sudo apt-get install git-lfs git lfs install # Windows(需先安装Git) git lfs install
-
克隆仓库:
git clone https://huggingface.co/bert-base-uncased
五、镜像加速与离线方案
- 国内镜像:使用镜像站点(如
hf-mirror.com
)加速下载:import os os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com' # 之后正常使用from_pretrained()
-
离线使用:将模型文件部署到服务器后,设置环境变量:
export TRANSFORMERS_OFFLINE=1
注意事项
-
文件完整性:确保下载的文件名称与官方一致,否则加载可能失败。
-
安全风险:避免加载来源不明的模型,防止恶意代码注入。
-
权限问题:部分模型(如Llama2)需申请权限才能下载。