如何管理各种GPU构建企业私有LLM服务——GPUStack

今天介绍一个新项目,我对GPUStack的出现感到无比欣喜。这个创新平台彻底改变了企业级大模型服务的部署方式,为我们带来了前所未有的便利。

GPUStack堪称一站式服务平台,轻松应对GPU资源管理、推理引擎加速和API兼容等复杂任务。它支持分布式推理,让小型GPU也能驾驭大内存模型。从异构GPU到多种推理后端,从LLM到VLM再到Embedding模型,GPUStack几乎涵盖了所有主流场景和模型类型。

最令人惊叹的是其简便的安装过程和强大的自动调度功能。在最近的项目中,GPUStack不仅节省了大量配置时间,还将GPU使用效率提升了约30%。作为一个开源平台,它更提供了无限的定制和扩展可能。

如果你正在寻找一个低成本、高效能的大模型服务解决方案,GPUStack绝对值得一试。它必将让你的AI之路变得更加顺畅。

下面我们就具体介绍这个神器。

GPUStack 是面向企业私有大模型服务而设计的企业级开源软件,具备建设一个企业私有大模型即服务平台所需要的各项功能,包括 GPU 管理、推理引擎及推理加速、使用和计量、性能度量和记录、认证授权和访问控制、OpenAI 兼容的 API 以及 Dashboard 仪表板。只需要非常简单的安装设置,就可以开箱即用地构建企业的私有大模型即服务平台。

功能介绍

• 异构 GPU 支持:支持异构 GPU 资源,当前支持 Nvidia、Apple Metal 和摩尔线程的 GPU,华为昇腾 NPU、AMD GPU 等的支持也在进行中

• 多推理后端支持:支持 vLLM 和 llama.cpp 推理后端,兼顾生产性能需求与多平台兼容性需求

• 多平台支持:支持 Linux、Windows 和 macOS 平台,完整覆盖 amd64 和 arm64 架构

• 多模型类型支持:支持 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型,Reranker 重排序模型、语音模型、图像模型等的支持也在进行中

• 多模型仓库支持:支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型

• 丰富的自动/手动调度策略:支持紧凑调度、扩散调度、指定 Worker 标签调度、指定 GPU 调度等各种调度策略

• 分布式推理:如果单个 GPU 无法运行较大的模型,可以通过 GPUStack 的分布式推理功能,自动将模型运行在跨主机的多个 GPU 上

• CPU 推理:如果没有 GPU 或 GPU 资源不足,GPUStack 可以用 CPU 资源来运行大模型,支持 GPU&CPU 混合推理和纯 CPU 推理两种 CPU 推理模式

• 多模型对比:GPUStack 在 Playgroud 中提供了多模型对比视图,可以同时对比多个模型的问答内容和性能数据,以评估不同模型、不同权重、不同 Prompt 参数、不同量化、不同 GPU、不同推理后端的模型 Serving 效果

• GPU 和 LLM 观测指标:提供全面的性能、利用率、状态监控和使用数据指标,可以用来评估 GPU 和 LLM 的利用情况

GPUStack 可以快速整合各种异构 GPU 资源,企业不需要采用复杂的技术栈和投入大量的集成工作,就可以低成本建设企业私有大模型即服务平台,为 AI 开发者和 AI 应用提供私有大模型服务。

如果对 GPUStack 感兴趣的同学可以参考以下实操步骤,安装并体验 GPUstack。

Step-by-Step 体验 GPUStack

安装 GPUStack

在 Linux 或 macOS 上通过以下命令调用在线脚本安装,注意在安装过程中需要输入 sudo 密码:

 curl -sfL https://get.gpustack.ai | sh -

在 Windows 上以管理员身份运行 Powershell,通过以下命令调用在线脚本安装:

Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content  

当看到以下输出时,说明已经成功部署并启动了 GPUStack。

Shell [INFO] Install complete. Run “gpustack” from the command line.

接下来拿到登录 GPUStack 的初始密码,执行以下命令:

在 Linux 或 macOS 上:

cat /var/lib/gpustack/initial_admin_password  

在 Windows 上:

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\initial_admin_password") -Raw  

在浏览器访问 http://YOUR_IP_ADDRESS,用户名 admin,密码为上面获得的初始密码。

重新设置密码后,进入 GPUStack:

纳管 GPU 资源

GPUStack 支持纳管 Linux、Windows 和 macOS 系统的 GPU 资源,通过以下步骤来纳管这些 GPU 资源。

其他节点需要通过认证 Token 加入 GPUStack 集群,在 GPUStack Server 节点执行以下命令获取 Token:

在 Linux 或 macOS 上:

cat /var/lib/gpustack/token  

在 Windows 上:

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\token") -Raw  

拿到 Token 后,在其他节点上运行以下命令添加 Worker 到 GPUStack,纳管这些节点的 GPU(将其中的 http://YOUR_IP_ADDRESS 替换为你的 GPUStack 访问地址,将 YOUR_TOKEN 替换为用于添加 Worker 的认证 Token):

在 Linux 或 macOS 上:

curl -sfL https://get.gpustack.ai | sh - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN  

在 Windows 上:

Invoke-Expression "& { $((Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content) } --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN"  

通过以上步骤,我们已经创建了一个 GPUStack 环境并纳管了多个 GPU 节点,接下来可以使用这些 GPU 资源来部署私有大模型。

部署私有大模型

访问 GPUStack,在 Models 菜单中部署模型。GPUStack 支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型,国内网络建议从 ModelScope 部署。

GPUStack 支持 vLLM 和 llama.cpp 推理后端,vLLM 专门针对生产推理进行了优化,在并发和性能方面更能满足生产需求,但 vLLM 只支持 Linux 系统。llama.ccp 则是一个灵活、兼容多平台的推理引擎,支持 Linux、Windows 和 macOS 系统,不止支持各种 GPU 环境,也支持在 CPU 环境运行大模型,更适合需要多平台兼容性的场景。

GPUStack 会在部署模型时自动根据模型文件的类型选择适当的推理后端,如果模型为 GGUF 格式,GPUStack 会使用 llama.cpp 作为后端运行模型,如果为非 GGUF 格式, GPUStack 会使用 vLLM 作为后端运行模型。

支持部署 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型:

通过 API 与 RAG 或其他 AI 应用集成,RAG 或其他 AI 应用通过 API 调用 GPUStack 部署的私有 LLM 模型、VLM 多模态模型 和 Embedding 文本嵌入模型:

总结

以上是对 GPUStack 的上手体验介绍,项目的开源地址为:https://github.com/gpustack/gpustack。

GPUStack 作为一个低门槛、易上手、开箱即用的开源平台,能够帮助企业在短时间内快速搭建起一个私有大模型即服务平台,为企业提供私有大模型服务,是低成本建设私有大模型即服务平台的理想选择之一。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值