最近需要从huggingface上下载一个数据集,发现不能像模型那样能直接点击下载,需要通过代码来获取,很麻烦,谨以此博客作为记录
方法
比如小编现在想下载数据集:ibrahimhamamci/CT-RATE
- 首先,需要获取huggingface网站的用户token
获取token的网址:https://huggingface.co/settings/tokens
注:这里需要给你的token取一个名字,然后选择你的token类型,这里建议选择write,因为小编选第一个类型的时候token不能用,不清楚是为啥
- 获取数据集
这里提供两个方法:
方法一: 通过snapshot_download来下载
# 1.安装huggingface_hub
# pip install huggingface_hub
import os
from huggingface_hub import snapshot_download
# 使用cache_dir参数,将模型/数据集保存到指定“本地路径”
snapshot_download(repo_id="ibrahimhamamci/CT-RATE", repo_type="dataset",
cache_dir="本地路径",
local_dir_use_symlinks=False, resume_download=True,
token='hf_***')
- 下载的时候需要开vpn,因为huggingface是国外的
- 可能会遇到下述错误:
huggingface_hub.utils._errors.LocalEntryNotFoundError
,具体解决办法参考:https://blog.csdn.net/weixin_44257107/article/details/136532423
方法二: 通过huggingface-cli下载
这里建议用第二个,小编亲测有效,第一个很容易因为网络问题卡住还会报错!!!
(如果下载的时候断了,再次执行命令就行,会接着之前的内容下载)
# 下载数据集
# 这种方式,数据集会保存到"/本地路径"中
huggingface-cli download --repo-type dataset --token 你的token --resume-download 数据集名称 --cache-dir /本地路径 --local-dir-use-symlinks False
注意:上述两个方法的数据集名称都取自huggingface数据集的标题,其他数据集同理,如下:
方法三: 通过git方式下载
看到这里一定有人想赏小编一个大耳瓜子,有最简单的方法咋不早说,说实话,小编也是忙活了一个晚上才发现,命运呐!
不管是哪种方法,一定要记得开vpn,重要的事情说三遍!!!
参考
- https://blog.csdn.net/qq_34950042/article/details/137184793