Windows下载C4数据集

1.  安装windows git, 软件下载地址 Git - Downloading Packageicon-default.png?t=M4ADhttps://git-scm.com/download/win

2. 安装git 扩展应用 lfs, 软件下载地址

Git Large File Storage | Git Large File Storage (LFS) replaces large files such as audio samples, videos, datasets, and graphics with text pointers inside Git, while storing the file contents on a remote server like GitHub.com or GitHub Enterprise.icon-default.png?t=M4ADhttps://git-lfs.github.com/

3. 安装完成后打开git桌面应应用图标 git bash, 如下图1

     参考网址: allenai/c4 · Datasets at Hugging Faceicon-default.png?t=M4ADhttps://huggingface.co/datasets/allenai/c4

4. 进入C4文件将要保存的位置,例如可运行命令:

    $ cd /d/数据/英语/训练集/训练集重新整理

5. 运行命令行

    $ GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/allenai/c4

6. 运行成功后会创建c4文件夹,及相应的子文件夹和相关文件。

    运行cd c4命令,进入c4文件夹。

7. 下载指定的文件,可使用正则表达式,下载测试文件如下图1。

    下载中文命令:git lfs pull --include "multilingual/c4-zh.*.json.gz"

    下载英文命令:git lfs pull --include "en/*"

8. Json格式文件大小, 参考网址:

    The C4 Multilingual Dataset · Discussion #5265 · allenai/allennlp · GitHubicon-default.png?t=M4ADhttps://github.com/allenai/allennlp/discussions/5265

 Download the C4 dataset! · Discussion #5056 · allenai/allennlp · GitHubicon-default.png?t=M4ADhttps://github.com/allenai/allennlp/discussions/5056

     中文文件:186G

     英文文件:305G

 

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值