一分钟搞定:使用脚本从HuggingFace镜像站下载模型或数据集
为什么要脚本下载? 在模型训练和部署中,往往会遇到访问HF超时的问题。因此我们常常会提前将模型权重或数据集下载到本地。但相关文件往往比较多,在网页上手动下载太过繁琐。一个一键下载指定HF仓库的脚本就非常实用。
这里介绍官网提供的下载方法之一:huggingface-cli
两步搞定:
1. 命令行安装huggingface-cli:
pip install -U huggingface_hub
2. 创建python脚本如下:
import os
# 设置环境变量
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
# 下载模型
os.system('huggingface-cli download --resume-download HF上的模型名称 --local-dir 本地存放路径')
# 下载数据集
os.system('huggingface-cli download --repo-type dataset --resume-download HF上的数据集名称 --local-dir 本地存放路径')
HF上的模型名称获取方式如下:
python运行该脚本即可
显示没权限怎么办
有时仓库所有者设定了权限,因此直接上述下载会报权限错误。解决方法为,调整脚本,增加令牌参数 --token
,这是一个类似口令的验证码:
import os
# 设置环境变量
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
# 下载模型
os.system('huggingface-cli download --resume-download HF上的模型名称 --local-dir 本地存放路径 --token XXXX')
如何获取口令呢?详见这里末尾的常见问题。