使用huggingface-cli工具下载数据到本地
背景
以GATE-engine/mini_imagenet为例,使用huggingface-cli工具下载该数据集到本地。
安装huggingface_hub并登录
- 安装:
pip install huggingface_hub
- 验证安装:
huggingface-cli --help
- 生成token用于登录:
- 登录HuggingFace官网
- 登录你的账户
- 进入
Settings
->Access Tokens
- 点击
New Token
,生成一个新的访问令牌
- 终端登录:
huggingface-cli login
下载数据集到本地
注意,记得登录VPN!!
huggingface-cli download --repo-type dataset --resume-download GATE-engine/mini_imagenet --cache-dir /本地路径 --local-dir-use-symlinks False
huggingface-cli默认下载地址
如何解决huggingface默认下载路径(windows)
将在线数据集下载到本地并加载
远程服务器无法在线访问huggingface,因此无法使用其在线load_dataset功能。此时可以先将数据集下载到本地,然后上传到服务器上后再加载。
from datasets import load_dataset, load_from_disk
# 远程数据集下载到本地
target_dir_path = r'E:\科研\Dataset\my_mini_imagenet'
dataset = load_dataset("GATE-engine/mini_imagenet")
dataset.save_to_disk(target_dir_path)
# 加载数据集
dataset = load_from_disk(target_dir_path)