从huggingface上下载数据集具体步骤

最近需要从huggingface上下载一个数据集,发现不能像模型那样能直接点击下载,需要通过代码来获取,很麻烦,谨以此博客作为记录

方法

比如小编现在想下载数据集:ibrahimhamamci/CT-RATE

  1. 首先,需要获取huggingface网站的用户token
    获取token的网址:https://huggingface.co/settings/tokens
    注:这里需要给你的token取一个名字,然后选择你的token类型,这里建议选择write,因为小编选第一个类型的时候token不能用,不清楚是为啥
    在这里插入图片描述
  2. 获取数据集

这里提供两个方法:

方法一: 通过snapshot_download来下载

# 1.安装huggingface_hub
# pip install huggingface_hub
import os
from huggingface_hub import snapshot_download
 
# 使用cache_dir参数,将模型/数据集保存到指定“本地路径”
snapshot_download(repo_id="ibrahimhamamci/CT-RATE", repo_type="dataset",
                  cache_dir="本地路径",
                  local_dir_use_symlinks=False, resume_download=True,
                  token='hf_***')
  • 下载的时候需要开vpn,因为huggingface是国外的
  • 可能会遇到下述错误:huggingface_hub.utils._errors.LocalEntryNotFoundError,具体解决办法参考:https://blog.csdn.net/weixin_44257107/article/details/136532423

方法二: 通过huggingface-cli下载
这里建议用第二个,小编亲测有效,第一个很容易因为网络问题卡住还会报错!!!
(如果下载的时候断了,再次执行命令就行,会接着之前的内容下载)

# 下载数据集
# 这种方式,数据集会保存到"/本地路径"中
huggingface-cli download --repo-type dataset --token 你的token --resume-download 数据集名称 --cache-dir /本地路径 --local-dir-use-symlinks False

注意:上述两个方法的数据集名称都取自huggingface数据集的标题,其他数据集同理,如下:
在这里插入图片描述

方法三: 通过git方式下载
看到这里一定有人想赏小编一个大耳瓜子,有最简单的方法咋不早说,说实话,小编也是忙活了一个晚上才发现,命运呐!
在这里插入图片描述
不管是哪种方法,一定要记得开vpn,重要的事情说三遍!!!

参考

  • https://blog.csdn.net/qq_34950042/article/details/137184793
  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

疯狂的小强呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值