如何管理各种GPU构建企业私有LLM服务——GPUStack

最新推荐文章于 2025-03-26 15:27:17 发布

大靠山

最新推荐文章于 2025-03-26 15:27:17 发布

阅读量1.2k

点赞数 20

文章标签： 1024程序员节人工智能 transformer 深度学习语言模型

本文链接：https://blog.csdn.net/m0_59235245/article/details/143259294

版权

今天介绍一个新项目，我对GPUStack的出现感到无比欣喜。这个创新平台彻底改变了企业级大模型服务的部署方式，为我们带来了前所未有的便利。

GPUStack堪称一站式服务平台，轻松应对GPU资源管理、推理引擎加速和API兼容等复杂任务。它支持分布式推理，让小型GPU也能驾驭大内存模型。从异构GPU到多种推理后端，从LLM到VLM再到Embedding模型，GPUStack几乎涵盖了所有主流场景和模型类型。

最令人惊叹的是其简便的安装过程和强大的自动调度功能。在最近的项目中，GPUStack不仅节省了大量配置时间，还将GPU使用效率提升了约30%。作为一个开源平台，它更提供了无限的定制和扩展可能。

如果你正在寻找一个低成本、高效能的大模型服务解决方案，GPUStack绝对值得一试。它必将让你的AI之路变得更加顺畅。

下面我们就具体介绍这个神器。

GPUStack 是面向企业私有大模型服务而设计的企业级开源软件，具备建设一个企业私有大模型即服务平台所需要的各项功能，包括 GPU 管理、推理引擎及推理加速、使用和计量、性能度量和记录、认证授权和访问控制、OpenAI 兼容的 API 以及 Dashboard 仪表板。只需要非常简单的安装设置，就可以开箱即用地构建企业的私有大模型即服务平台。

功能介绍

• 异构 GPU 支持：支持异构 GPU 资源，当前支持 Nvidia、Apple Metal 和摩尔线程的 GPU，华为昇腾 NPU、AMD GPU 等的支持也在进行中

• 多推理后端支持：支持 vLLM 和 llama.cpp 推理后端，兼顾生产性能需求与多平台兼容性需求

• 多平台支持：支持 Linux、Windows 和 macOS 平台，完整覆盖 amd64 和 arm64 架构

• 多模型类型支持：支持 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型，Reranker 重排序模型、语音模型、图像模型等的支持也在进行中

• 多模型仓库支持：支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型

• 丰富的自动/手动调度策略：支持紧凑调度、扩散调度、指定 Worker 标签调度、指定 GPU 调度等各种调度策略

• 分布式推理：如果单个 GPU 无法运行较大的模型，可以通过 GPUStack 的分布式推理功能，自动将模型运行在跨主机的多个 GPU 上

• CPU 推理：如果没有 GPU 或 GPU 资源不足，GPUStack 可以用 CPU 资源来运行大模型，支持 GPU&CPU 混合推理和纯 CPU 推理两种 CPU 推理模式

• 多模型对比：GPUStack 在 Playgroud 中提供了多模型对比视图，可以同时对比多个模型的问答内容和性能数据，以评估不同模型、不同权重、不同 Prompt 参数、不同量化、不同 GPU、不同推理后端的模型 Serving 效果

• GPU 和 LLM 观测指标：提供全面的性能、利用率、状态监控和使用数据指标，可以用来评估 GPU 和 LLM 的利用情况

GPUStack 可以快速整合各种异构 GPU 资源，企业不需要采用复杂的技术栈和投入大量的集成工作，就可以低成本建设企业私有大模型即服务平台，为 AI 开发者和 AI 应用提供私有大模型服务。

如果对 GPUStack 感兴趣的同学可以参考以下实操步骤，安装并体验 GPUstack。

Step-by-Step 体验 GPUStack

安装 GPUStack

在 Linux 或 macOS 上通过以下命令调用在线脚本安装，注意在安装过程中需要输入 sudo 密码：

 curl -sfL https://get.gpustack.ai | sh -

在 Windows 上以管理员身份运行 Powershell，通过以下命令调用在线脚本安装：

Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

当看到以下输出时，说明已经成功部署并启动了 GPUStack。

Shell [INFO] Install complete. Run “gpustack” from the command line.

接下来拿到登录 GPUStack 的初始密码，执行以下命令：

在 Linux 或 macOS 上：

cat /var/lib/gpustack/initial_admin_password

在 Windows 上：

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\initial_admin_password") -Raw

在浏览器访问 http://YOUR_IP_ADDRESS，用户名 admin，密码为上面获得的初始密码。

重新设置密码后，进入 GPUStack：

纳管 GPU 资源

GPUStack 支持纳管 Linux、Windows 和 macOS 系统的 GPU 资源，通过以下步骤来纳管这些 GPU 资源。

其他节点需要通过认证 Token 加入 GPUStack 集群，在 GPUStack Server 节点执行以下命令获取 Token：

在 Linux 或 macOS 上：

cat /var/lib/gpustack/token

在 Windows 上：

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\token") -Raw

拿到 Token 后，在其他节点上运行以下命令添加 Worker 到 GPUStack，纳管这些节点的 GPU（将其中的 http://YOUR_IP_ADDRESS 替换为你的 GPUStack 访问地址，将 YOUR_TOKEN 替换为用于添加 Worker 的认证 Token）：

在 Linux 或 macOS 上：

curl -sfL https://get.gpustack.ai | sh - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN

在 Windows 上：

Invoke-Expression "& { $((Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content) } --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN"

通过以上步骤，我们已经创建了一个 GPUStack 环境并纳管了多个 GPU 节点，接下来可以使用这些 GPU 资源来部署私有大模型。

部署私有大模型

访问 GPUStack，在 Models 菜单中部署模型。GPUStack 支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型，国内网络建议从 ModelScope 部署。

GPUStack 支持 vLLM 和 llama.cpp 推理后端，vLLM 专门针对生产推理进行了优化，在并发和性能方面更能满足生产需求，但 vLLM 只支持 Linux 系统。llama.ccp 则是一个灵活、兼容多平台的推理引擎，支持 Linux、Windows 和 macOS 系统，不止支持各种 GPU 环境，也支持在 CPU 环境运行大模型，更适合需要多平台兼容性的场景。

GPUStack 会在部署模型时自动根据模型文件的类型选择适当的推理后端，如果模型为 GGUF 格式，GPUStack 会使用 llama.cpp 作为后端运行模型，如果为非 GGUF 格式， GPUStack 会使用 vLLM 作为后端运行模型。

支持部署 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型：

通过 API 与 RAG 或其他 AI 应用集成，RAG 或其他 AI 应用通过 API 调用 GPUStack 部署的私有 LLM 模型、VLM 多模态模型和 Embedding 文本嵌入模型：

总结

以上是对 GPUStack 的上手体验介绍，项目的开源地址为：https://github.com/gpustack/gpustack。

GPUStack 作为一个低门槛、易上手、开箱即用的开源平台，能够帮助企业在短时间内快速搭建起一个私有大模型即服务平台，为企业提供私有大模型服务，是低成本建设私有大模型即服务平台的理想选择之一。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述