下载Huggingface数据集和项目

登录

并不是下载所有的都需要登录,有些需要授权,需要token

方式1

huggingface-cli login --token "YourToken" #引号里面YourToken替换为你自己的token

方式2

hf auth login

然后输入token

或者

hf auth login --token"YourToken"

下载huggingface_hub

首先:pip install huggingface_hub
若下载过查看版本:pip show huggingface_hub
此版本:0.5.3

加速下载

方式1:设置镜像

export HF_ENDPOINT=https://hf-mirror.com 

说明:设置镜像是,为了更快下载。而且此种方式仅支持此次远程连接,若连接关闭后此种方式失效,建议将上面这一行写入 ~/.bashrc。

方式2:使用学术加速

但若是下载需要登录的模型,此种方法失效,可以使用下列方法:
使用学术加速:若是AUTODL服务器,其有学术加速功能,可通过在终端输入source /etc/network_turbo命令来临时为当前终端会话注入学术加速的网络代理配置,

下载项目文件/数据集

使用huggingface-cli download

huggingface-cli download --resume-download maxidl/Llama-OpenReviewer-8B README.md --local-dir /root/autodl-tmp/maxidl/Llama-OpenReviewer-8B --local-dir-use-symlinks False

若显示没有 --resume-download 说明已废弃了,但是已经合成到代码中,默认断点传送

数据集下载:

huggingface-cli download --repo-type dataset --resume-download WestlakeNLP/DeepReview-13K --local-dir /root/autodl-tmp/DeepReview-13K2 --local-dir-use-symlinks False

使用hf download

这种方式会将文件下载到/local_dir/huggingface/hub/【项目名】下面,且含有一堆额外的东西,包括软链接,不推荐❌
若想指定位置:

export HF_HOME=/root/autodl-tmp/huggingface

查看:

echo $HF_HOME
hf download Daoze/ReviewRebuttal  --repo-type=dataset   --local-dir /root/dataset

其他版本可试试:此版不支持这些参数
如:要下载 Hugging Face里面的Daoze/ReviewRebutta数据集的 refs/convert/parquet 版本到 /root/dataset 目录,可以使用 huggingface-cli 的 download 命令并指定版本(revision)和输出目录,具体命令如下:

hf download Daoze/ReviewRebuttal  --repo-type=dataset --revision refs/convert/parquet   --include "README.md"  --local-dir /root/dataset --local-dir-use-symlinks False --resume-download

命令说明:
• --revision refs/convert/parquet:指定要下载的数据集版本(分支 / 标签)
• --local-dir /root/dataset:设置本地保存路径为 /root/dataset
• --local-dir-use-symlinks False:禁用符号链接,直接下载实际文件(避免生成链接文件)
–resume-download 参数:需要断点续传或增量下载
当使用 --resume-download 时,huggingface-cli 会同时具备两种特性:
• 对单个大文件支持断点续传(续传未完成的部分)。
• 对多文件数据集支持增量下载(只补充缺失或更新的文件)。

使用hf_hub_download

from huggingface_hub import hf_hub_download
# 仅下载模型的 指定文件,禁用软连接
hf_hub_download(
    repo_id = "maxidl/Llama-OpenReviewer-8B",
    repo_type="model",
    filename="model-00003-of-00004.safetensors",  # 目标文件名称(需准确,可在模型仓库页面查看)
    local_dir="/root/autodl-tmp/Llama-OpenReviewer-8B",  # 本地保存目录
    local_dir_use_symlinks=False,  # 禁用软连接
)

使用snapshot_download

from huggingface_hub import snapshot_download

#下载完整模型,禁用软连接
snapshot_download(
    repo_id="bert-base-uncased",  # 模型 ID(Hugging Face 仓库地址)
    repo_type="model",  # 资源类型:模型
    local_dir="/root/autodl-tmp/Llama-OpenReviewer-8B",  # 本地保存目录
    local_dir_use_symlinks=False,  # 关键:禁用软连接
    # 可选:仅下载特定文件(如只要权重和配置,减少体积)
    # allow_patterns=["*.bin", "config.json", "tokenizer.json"]
    allow_patterns=["*.model", "*.json", "*.bin","*.safetensors",
    "*.py", "*.md", "*.txt"],
    ignore_patterns=[, "*.msgpack",
    "*.h5", "*.ot",],
)

参考:
如何快速下载huggingface模型——全方法总结 知乎
huggingface-cli下载数据(含国内镜像源方法)CSDN

### 如何从Hugging Face官网下载数据集 #### 使用命令行工具`huggingface-cli` 对于希望在Linux环境下操作的用户,可以通过安装并使用官方提供的CLI工具来完成这一过程。首先确保已安装该工具,接着通过如下命令登录账户: ```bash huggingface-cli login ``` 此命令会提示输入API令牌[^2]。 一旦认证成功,就可以利用简单的命令结构指定想要获取的数据集名称以及本地存储路径来进行下载工作: ```bash huggingface-cli download --local-dir /path/to/save/dataset dataset_name ``` 这里`/path/to/save/dataset`代表保存位置而`dataset_name`则是目标资源的名字[^4]。 #### Python脚本实现自动化处理 除了直接调用命令外,还可以编写Python程序自动执行上述流程。这特别适用于那些希望通过编程方式集成到更大项目中的场景。下面是一个基本的例子展示怎样借助transformers库加载远程仓库里的资料集合: ```python from datasets import load_dataset # 加载特定版本的数据集至内存中 data = load_dataset('name_of_the_dataset') print(data) ``` 这段代码能够方便快捷地把所需材料引入开发环境内而不必手动干预每一个单独文件的操作。 #### 批量下载解决方案 针对某些大型项目可能涉及到多个关联组件的情况,采用Git作为媒介可能是更好的选择之一。这种方法允许一次性拉取整个目录树下的所有相关内容,从而简化管理多份文档的工作流。具体做法涉及设置合适的网络参数以优化传输效率,并最终克隆远端地址指向的目标库: ```bash git lfs install git clone https://huggingface.co/path_to_model_or_dataset.git cd path_to_model_or_dataset.git ``` 值得注意的是,在实际应用前还需要调整好相应的代理服务器配置以便顺利连接外部服务提供商[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值