Server - 使用网盘快速下载 Hugging Face 大模型

ManonLegrand

已于 2023-06-20 17:05:00 修改

阅读量1.7k

点赞数 1

分类专栏： Server&Program 文章标签：人工智能

于 2023-06-20 15:32:42 首次发布

本文链接：https://blog.csdn.net/caroline_wendy/article/details/131307090

版权

Server&Program 专栏收录该内容

43 篇文章

订阅专栏

文章介绍了如何使用HuggingFace平台的资源，特别是对于大型NLP模型，如llama-13b-hf，由于下载速度慢的问题，建议通过百度网盘和bypy工具进行加速下载。此外，文章还详细阐述了如何设置git和SSHKeys来优化模型工程的下载过程，以及如何使用cp命令覆盖现有文件夹。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://blog.csdn.net/caroline_wendy/article/details/131307090

Hugging Face 是一家专注于自然语言处理（NLP）的公司，提供了多种工具和平台，帮助开发者和研究者构建和部署先进的 NLP 应用。Hugging Face 的核心产品是 Transformers 库，一个开源的 Python 库，包含了数千个预训练的 NLP 模型，涵盖了文本分类、问答、文本生成、情感分析等多个任务。Huggingface 还提供了 Datasets 库，是一个开源的数据集集合，包含了超过 1000 个 NLP 数据集，方便用户快速加载和处理数据。此外，Hugging Face 还有 Spaces 平台，是一个在线的交互式环境，让用户可以轻松地创建、分享和运行 NLP 应用。Hugging Face 的使命是让 NLP 对每个人都开放和易用，推动人类和机器之间的沟通。

目前，很多大模型，如 llama-13b-hf ，都是存放于 Huggingface，但是由于国内的网速原因，导致即使使用 git lfs 下载缓慢，建议直接使用网盘，如百度网盘，连接服务器，进行下载。

1. 下载资源

从网络中，寻找大模型，如 llama-13b-hf 资源，参考，转载至百度网盘。

准备下载工具 GitHub - houtianze/bypy，直接安装即可，

pip install bypy

bypy 可用，输入 bypy info，登录账号，输入验证码 (Authorization Code)，即可使用。

Please visit:
https://openapi.baidu.com/oauth/2.0/authorize?client_id=[something]   # 手动访问链接
And authorize this app
Paste the Authorization Code here within 10 minutes.
Press [Enter] when you are done
[Your Authorization Code]   # 从网络上获取的验证码
Authorizing, please be patient, it may take upto 300 seconds...
Quota: 2.005TB
Used: 491.832GB

建议升级 SVIP 提升下载速度

接着，将需要下载文件复制到百度网盘的 pyby 文件夹，已默认创建，位于全部文件 -> 我的应用数据 -> bypy，bypy即根目录。

下载命令如下：

bypy downdir /decapoda-research-llama-13b-hf/ ./decapoda-research-llama-13b-hf/

文件下载速度较快，约 4 MB/s，这样就可以规避 Huggingface 下载较慢的过程。

2. 合并工程

通过先下载工程，再合并参数的方式，建议使用 git 方式，完成整体工程下载。即

git clone git@hf.co:decapoda-research/llama-13b-hf.git

如遇到问题 Error in the pull function，建议 rm ~/.gitconfig 即可。

如需使用 git 方式，需要在 Hugging Face 的账号中，上传 SSH & GPG Keys，即上传 id_rsa.pub 的内容。

同时，在服务器中，上传 id_rsa 文件至 ~/.ssh/id_rsa，同时，修改权限，否则报错，Permissions 0664 for 'id_rsa' are too open.，即：

chmod 400 ~/.ssh/id_rsa

这样即可使用 git 下载链接，进行下载。

复制文件时，使用 cp -af 覆盖已有文件夹，可以完成工程下载：

cp -rf decapoda-research-llama-13b-hf/*.bin llama-13b-hf/
cp -rf decapoda-research-llama-13b-hf/*.model llama-13b-hf/

参考