有些huggingface的数据集或者模型在镜像网站("https://hf-mirror.com")上不存在,因此在国内只能通过代理服务器来下载,下面是下载的代码示例:
import os
os.environ["http_proxy"] = "http://127.0.0.1:7890" # 代理设置
os.environ["https_proxy"] = "http://127.0.0.1:7890" # 代理设置
from huggingface_hub import snapshot_download
# repo_id 模型id
# local_dir 下载地址
# endpoint 镜像地址
# resume_download (中断后)继续下载
snapshot_download(repo_id="gengyuanmax/WikiTiLo", local_dir="F:\LLM",
local_dir_use_symlinks=False,
repo_type="dataset",
resume_download=True,
token='hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxx')
token 参数对于一些需要访问权限的库是必须的(如下这个库), 否则可以删除该参数。
这里需要特别注意一点,就是对于需要token的库,还需要去token设置(https://huggingface.co/settings)Access Tokens 里配置相应的Repositories permissions权限!否则会报错无法定位这个库!!!