下载Huggingface数据集和项目

原创于 2025-10-15 11:36:33 发布 · 838 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #python #huggingface

文章目录

登录
- 方式1
- 方式2
下载huggingface_hub
加速下载
- 方式1：设置镜像
- 方式2：使用学术加速
下载项目文件/数据集

下载huggingface_hub

首先：pip install huggingface_hub
若下载过查看版本：pip show huggingface_hub
此版本：0.5.3

加速下载

方式1：设置镜像

export HF_ENDPOINT=https://hf-mirror.com

说明：设置镜像是，为了更快下载。而且此种方式仅支持此次远程连接，若连接关闭后此种方式失效，建议将上面这一行写入 ~/.bashrc。

方式2：使用学术加速

但若是下载需要登录的模型，此种方法失效，可以使用下列方法：
使用学术加速：若是AUTODL服务器，其有学术加速功能，可通过在终端输入source /etc/network_turbo命令来临时为当前终端会话注入学术加速的网络代理配置，

下载项目文件/数据集

使用`huggingface-cli download`

huggingface-cli download --resume-download maxidl/Llama-OpenReviewer-8B README.md --local-dir /root/autodl-tmp/maxidl/Llama-OpenReviewer-8B --local-dir-use-symlinks False

若显示没有 --resume-download 说明已废弃了，但是已经合成到代码中，默认断点传送

数据集下载：

huggingface-cli download --repo-type dataset --resume-download WestlakeNLP/DeepReview-13K --local-dir /root/autodl-tmp/DeepReview-13K2 --local-dir-use-symlinks False

使用`hf download`

这种方式会将文件下载到/local_dir/huggingface/hub/【项目名】下面，且含有一堆额外的东西，包括软链接，不推荐❌
若想指定位置：

export HF_HOME=/root/autodl-tmp/huggingface

查看：

echo $HF_HOME

hf download Daoze/ReviewRebuttal  --repo-type=dataset   --local-dir /root/dataset

其他版本可试试：此版不支持这些参数
如：要下载 Hugging Face里面的Daoze/ReviewRebutta数据集的 refs/convert/parquet 版本到 /root/dataset 目录，可以使用 huggingface-cli 的 download 命令并指定版本（revision）和输出目录，具体命令如下：

hf download Daoze/ReviewRebuttal  --repo-type=dataset --revision refs/convert/parquet   --include "README.md"  --local-dir /root/dataset --local-dir-use-symlinks False --resume-download

命令说明：
• --revision refs/convert/parquet：指定要下载的数据集版本（分支 / 标签）
• --local-dir /root/dataset：设置本地保存路径为 /root/dataset
• --local-dir-use-symlinks False：禁用符号链接，直接下载实际文件（避免生成链接文件）
–resume-download 参数：需要断点续传或增量下载
当使用 --resume-download 时，huggingface-cli 会同时具备两种特性：
• 对单个大文件支持断点续传（续传未完成的部分）。
• 对多文件数据集支持增量下载（只补充缺失或更新的文件）。

使用`hf_hub_download`

from huggingface_hub import hf_hub_download
# 仅下载模型的 指定文件，禁用软连接
hf_hub_download(
    repo_id = "maxidl/Llama-OpenReviewer-8B",
    repo_type="model",
    filename="model-00003-of-00004.safetensors",  # 目标文件名称（需准确，可在模型仓库页面查看）
    local_dir="/root/autodl-tmp/Llama-OpenReviewer-8B",  # 本地保存目录
    local_dir_use_symlinks=False,  # 禁用软连接
)

使用`snapshot_download`

from huggingface_hub import snapshot_download

#下载完整模型，禁用软连接
snapshot_download(
    repo_id="bert-base-uncased",  # 模型 ID（Hugging Face 仓库地址）
    repo_type="model",  # 资源类型：模型
    local_dir="/root/autodl-tmp/Llama-OpenReviewer-8B",  # 本地保存目录
    local_dir_use_symlinks=False,  # 关键：禁用软连接
    # 可选：仅下载特定文件（如只要权重和配置，减少体积）
    # allow_patterns=["*.bin", "config.json", "tokenizer.json"]
    allow_patterns=["*.model", "*.json", "*.bin","*.safetensors",
    "*.py", "*.md", "*.txt"],
    ignore_patterns=[, "*.msgpack",
    "*.h5", "*.ot",],
)