基于镜像站和多线程下载器下载huggingface上的数据集

基于镜像站和多线程下载器下载huggingface上的数据集

在这里插入图片描述
在这里插入图片描述

https://huggingface.co/
huggingface是一个开源的网站,上面有很多优秀的开源模型和数据集,我们常常会需要用到这些模型和数据集来进行自己的任务,但是该网站在国内无法方便的访问和批量下载。

本文介绍一种基于镜像站和多线程下载器进行下载的方法。
镜像站:
https://hf-mirror.com/
下载器:
hfd:https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f
具体流程如下:

1.下载hfd脚本

wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh

如果在windows上因为没有自带wget包,可以去下载一个可执行程序
地址:https://eternallybored.org/misc/wget/
然后将exe放到 windows/system32 目录下。
详细可以参考这篇文章:https://blog.csdn.net/wzk4869/article/details/130540213

2.设置环境变量

# linux
export HF_ENDPOINT=https://hf-mirror.com

# windows powershell
$env:HF_ENDPOINT = "https://hf-mirror.com"

windows系统下也可以通过ui界面去找到系统环境变量新建添加上面的环境变量。
如果不设置该环境变量,下载器脚本还是会默认的选择huggingface的原网址进行下载。如果你可以直接正常访问的话,可以选择不使用该镜像站。

3.下载

选择脚本所在的目录,在命令行输入以下命令

# 下载模型
./hfd.sh gpt2 --tool aria2c -x 4
# 下载数据集
./hfd.sh wikitext --dataset --tool aria2c -x 4

上述命令使用了aria2来进行多线程下载,如果电脑上没有安装,可以去根据自己的系统下载一个
地址:https://aria2.github.io/
因为windows下需要设置环境变量,所以这里以windows平台为例说明,将压缩包解压下来放在一个合适的位置
在这里插入图片描述
我这里是将他重命名为aria2
在这里插入图片描述然后将该路径添加到环境变量中的PATH中
在这里插入图片描述当然,如果不想配置aria2的话,也可以直接这样使用命令

./hfd.sh gpt2

hfd更多的参数说明也可以去这个项目的页面进行查询了解。

关于国内如何更稳定的下载hugging face资源可以参考这篇文章:
https://zhuanlan.zhihu.com/p/663712983

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值