如何管理各种GPU构建企业私有LLM服务——GPUStack

程序员丸子

于 2024-10-11 09:31:22 发布

阅读量364

点赞数 15

文章标签：自然语言处理 AI大模型人工智能大语言模型 LLM GPU 大模型

本文链接：https://blog.csdn.net/lyy2017175913/article/details/142845138

版权

今天介绍一个新项目，我对GPUStack的出现感到无比欣喜。这个创新平台彻底改变了企业级大模型服务的部署方式，为我们带来了前所未有的便利。

GPUStack堪称一站式服务平台，轻松应对GPU资源管理、推理引擎加速和API兼容等复杂任务。它支持分布式推理，让小型GPU也能驾驭大内存模型。从异构GPU到多种推理后端，从LLM到VLM再到Embedding模型，GPUStack几乎涵盖了所有主流场景和模型类型。

最令人惊叹的是其简便的安装过程和强大的自动调度功能。在最近的项目中，GPUStack不仅节省了大量配置时间，还将GPU使用效率提升了约30%。作为一个开源平台，它更提供了无限的定制和扩展可能。

如果你正在寻找一个低成本、高效能的大模型服务解决方案，GPUStack绝对值得一试。它必将让你的AI之路变得更加顺畅。

下面我们就具体介绍这个神器。

GPUStack 是面向企业私有大模型服务而设计的企业级开源软件，具备建设一个企业私有大模型即服务平台所需要的各项功能，包括 GPU 管理、推理引擎及推理加速、使用和计量、性能度量和记录、认证授权和访问控制、OpenAI 兼容的 API 以及 Dashboard 仪表板。只需要非常简单的安装设置，就可以开箱即用地构建企业的私有大模型即服务平台。

功能介绍

• 异构 GPU 支持：支持异构 GPU 资源，当前支持 Nvidia、Apple Metal 和摩尔线程的 GPU，华为昇腾 NPU、AMD GPU 等的支持也在进行中

• 多推理后端支持：支持 vLLM 和 llama.cpp 推理后端，兼顾生产性能需求与多平台兼容性需求

• 多平台支持：支持 Linux、Windows 和 macOS 平台，完整覆盖 amd64 和 arm64 架构

• 多模型类型支持：支持 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型，Reranker 重排序模型、语音模型、图像模型等的支持也在进行中

• 多模型仓库支持：支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型

• 丰富的自动/手动调度策略：支持紧凑调度、扩散调度、指定 Worker 标签调度、指定 GPU 调度等各种调度策略

• 分布式推理：如果单个 GPU 无法运行较大的模型，可以通过 GPUStack 的分布式推理功能，自动将模型运行在跨主机的多个 GPU 上

• CPU 推理：如果没有 GPU 或 GPU 资源不足，GPUStack 可以用 CPU 资源来运行大模型，支持 GPU&CPU 混合推理和纯 CPU 推理两种 CPU 推理模式

• 多模型对比：GPUStack 在 Playgroud 中提供了多模型对比视图，可以同时对比多个模型的问答内容和性能数据，以评估不同模型、不同权重、不同 Prompt 参数、不同量化、不同 GPU、不同推理后端的模型 Serving 效果

• GPU 和 LLM 观测指标：提供全面的性能、利用率、状态监控和使用数据指标，可以用来评估 GPU 和 LLM 的利用情况

GPUStack 可以快速整合各种异构 GPU 资源，企业不需要采用复杂的技术栈和投入大量的集成工作，就可以低成本建设企业私有大模型即服务平台，为 AI 开发者和 AI 应用提供私有大模型服务。

如果对 GPUStack 感兴趣的同学可以参考以下实操步骤，安装并体验 GPUstack。

Step-by-Step 体验 GPUStack

安装 GPUStack

在 Linux 或 macOS 上通过以下命令调用在线脚本安装，注意在安装过程中需要输入 sudo 密码：

 curl -sfL https://get.gpustack.ai | sh -

在 Windows 上以管理员身份运行 Powershell，通过以下命令调用在线脚本安装：

Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

当看到以下输出时，说明已经成功部署并启动了 GPUStack。

Shell [INFO] Install complete. Run “gpustack” from the command line.

接下来拿到登录 GPUStack 的初始密码，执行以下命令：

在 Linux 或 macOS 上：

cat /var/lib/gpustack/initial_admin_password

在 Windows 上：

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\initial_admin_password") -Raw

在浏览器访问 http://YOUR_IP_ADDRESS，用户名 admin，密码为上面获得的初始密码。

重新设置密码后，进入 GPUStack：

纳管 GPU 资源

GPUStack 支持纳管 Linux、Windows 和 macOS 系统的 GPU 资源，通过以下步骤来纳管这些 GPU 资源。

其他节点需要通过认证 Token 加入 GPUStack 集群，在 GPUStack Server 节点执行以下命令获取 Token：

在 Linux 或 macOS 上：

cat /var/lib/gpustack/token

在 Windows 上：

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\token") -Raw

拿到 Token 后，在其他节点上运行以下命令添加 Worker 到 GPUStack，纳管这些节点的 GPU（将其中的 http://YOUR_IP_ADDRESS 替换为你的 GPUStack 访问地址，将 YOUR_TOKEN 替换为用于添加 Worker 的认证 Token）：

在 Linux 或 macOS 上：

curl -sfL https://get.gpustack.ai | sh - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN

在 Windows 上：

Invoke-Expression "& { $((Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content) } --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN"

通过以上步骤，我们已经创建了一个 GPUStack 环境并纳管了多个 GPU 节点，接下来可以使用这些 GPU 资源来部署私有大模型。

部署私有大模型

访问 GPUStack，在 Models 菜单中部署模型。GPUStack 支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型，国内网络建议从 ModelScope 部署。

GPUStack 支持 vLLM 和 llama.cpp 推理后端，vLLM 专门针对生产推理进行了优化，在并发和性能方面更能满足生产需求，但 vLLM 只支持 Linux 系统。llama.ccp 则是一个灵活、兼容多平台的推理引擎，支持 Linux、Windows 和 macOS 系统，不止支持各种 GPU 环境，也支持在 CPU 环境运行大模型，更适合需要多平台兼容性的场景。

GPUStack 会在部署模型时自动根据模型文件的类型选择适当的推理后端，如果模型为 GGUF 格式，GPUStack 会使用 llama.cpp 作为后端运行模型，如果为非 GGUF 格式， GPUStack 会使用 vLLM 作为后端运行模型。