Huggingface datasets库读取yelp_review_full数据集时下载失败的解决方法

问题:datasets.load_dataset()下载失败

from datasets import load_dataset
dataset = load_dataset('yelp_review_full')

运行上述代码,程序会将yelp_review_full数据集下载到C:\Users\“你的用户名”\.cache\huggingface下(Windows系统),如果下载成功,最终完整的目录格式为
C:\Users\“你的用户名”\.cache\huggingface\yelp_review_full\yelp_review_full\1.0.0\e8e18e1(最后目录名是一大串,可能不同),在此目录下面有三个文件dataset_info.json、yelp_review_full-test.arrow、yelp_review_full-train.arrow。

但是由于yelp_review_full数据集是从https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz下载的,国内下载非常慢,目前在网上没有找到解决这个问题的方法,例如https://blog.csdn.net/weixin_42655901/article/details/124246300中的方法并没有解决问题。

解决方法

方法一:修改数据集下载脚本,挂代理下载

git clone https://huggingface.co/datasets/yelp_review_full

下载yelp_review_full在huggingface的下载脚本,打开其中yelp_review_full.py,将

_URLs = {
    "yelp_review_full": "https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz",
}

中的https改成http,然后挂梯子下载。

注意:如果直接挂梯子会下载失败,原因参考这篇https://blog.csdn.net/gzxb1995/article/details/119084974

方法二:手动从其他源下载

第一步,从https://huggingface.co/datasets/yelp_review_full/tree/refs%2Fconvert%2Fparquet/yelp_review_full下载两个parquet文件;
第二步,使用git clone https://huggingface.co/datasets/yelp_review_full取出其中的dataset_infos.json,将其改名为dataset_info.json;
第三步,将dataset_info.json和之前的两个parquet文件一起放在某一目录中,例如./datasets/yelp_review_full(注意这里如果用相对路径不能为yelp_review_full,否则后面还是会下载,不会读取本地文件)。

读取方式为

dataset = load_dataset('./datasets/yelp_review_full')

即可成功读取。

注意:如果手动从https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz下载,解压后得到两个csv,分别是train.csv和test.csv,但我将这两个csv按照前面parquet文件的方式改名,并和dataset_info.json放在一个目录下时,读取会出现错误can only join an iterable datasets,目前我不知道为什么用csv文件无法读取,如果有解决方法可以教我一下。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值