以下是几种常用的开源大型语言模型(LLMs)下载方式,结合了官方工具、镜像站及代码库集成方法,供不同需求场景选择:
一、官方途径下载
-
Hugging Face 原生工具
- 网页直接下载:访问模型主页(如 Qwen2.5-72B 的 HuggingFace 页面),在 "Files and Versions" 中手动下载权重文件。
- 命令行工具
huggingface-cli
:
安装后通过命令直接下载,支持断点续传和指定版本。例如下载 Llama2-70B:
若需下载量化版本(如 GPTQ/GGUF 格式),可添加huggingface-cli download --resume-download meta-llama/Llama-2-70b-chat-hf --local-dir <路径>
--revision
参数指定分支。
-
Git 下载
使用git clone
命令克隆仓库,但需注意此方式不支持断点续传且会包含历史版本,可能占用更多存储空间。
二、镜像站加速(适合国内用户)
-
HF-Mirror 镜像
- 设置环境变量指向镜像站:
$env:HF_ENDPOINT = "https://hf-mirror.com"
- 使用
huggingface-cli
下载,例如下载 Llama3.1 量化模型:
此方法可绕过网络限制,提升下载稳定性。huggingface-cli download lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF --include "*.gguf"
- 设置环境变量指向镜像站:
-
魔搭社区(ModelScope)
提供中文界面及国内服务器加速,支持直接搜索并下载主流模型(如 Qwen、ChatGLM 等),适合不熟悉命令行的用户。
三、代码库集成加载
通过 transformers
库直接加载模型到本地:
from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0") tokenizer = AutoTokenizer.from_pretrained("nvidia/Llama3-ChatQA-1.5-70B")
此方式自动缓存模型文件,适合开发者快速集成到项目中。
四、热门模型推荐与下载源
参考 [网页1] 的评测,以下模型性能突出且提供完整下载链接:
- Qwen2.5-72B:支持 128K 上下文,数学与代码能力强,提供基座版、指令微调版及多种量化格式。
- Yi-34B:中英文能力均衡,HuggingFace 英文榜单排名第一。
- Hunyuan-Large:腾讯开源的 MoE 模型,支持 256K 长文本处理。
- GLM-4:清华团队开发,支持多模态生成与复杂工具调用。
注意事项
- 硬件要求:70B 级别模型需至少 80GB 显存,量化版本(如 4bit)可降低显存占用。
- 权限问题:部分模型(如 Llama3)需申请 Meta 授权,可通过社区镜像站获取已转制版本。
- 依赖安装:确保安装
huggingface_hub
、hf_transfer
等库,GPU 用户需配置 CUDA 环境。
如需具体模型的完整下载步骤或更多开源 LLMs 列表,可参考 [网页1] 的 15 款热门模型盘点及 [网页2][网页4] 的技术文档。