SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎

青稞社区.

已于 2024-08-29 21:22:40 修改

阅读量2.8k

点赞数 7

分类专栏：青稞Talk 文章标签：人工智能语言模型 python

于 2024-08-29 21:18:40 首次发布

本文链接：https://blog.csdn.net/QingKeLab/article/details/141688674

版权

青稞Talk 专栏收录该内容

32 篇文章

订阅专栏

关注公众号：青稞AI，第一时间了解最新AI技术
🔥青稞Talk主页：qingkelab.github.io/talks

SGLang 是 LMSYS Org 团队于今年 1 月份正式推出的一个用于 LLM 和 VLM 的通用服务引擎，且完全开源，采用 Apache 2.0 许可授权。它由纯 Python 编写，核心调度器只用了不到 4K 行代码就实现了，已被 LMSYS Chatbot Arena 用于支持部分模型、Databricks、几家初创公司和研究机构，产生了数万亿 token，实现了更快的迭代。

在这里插入图片描述
在最新的 SGLang Runtime v0.2 中，其性能更加惊艳。在运行 Llama 3.1 405B 时，它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM，甚至能达到 TensorRT-LLM 的 2.1 倍，vLLm 的 3.8 倍。目前已在 GitHub 上已经收获了超过 4.7k 的 star 量。

在这里插入图片描述
此次更新的效果就连 Lepton AI 联合创始人兼 CEO 贾扬清都评价说：我一直被我的博士母校加州大学伯克利分校惊艳，因为它不断交付最先进的人工智能和系统协同设计成果。去年我们看到了 SGLang 的使用，现在它变得更好了。迫不及待地想在产品中部署并尝试新的 SGLang！

在这里插入图片描述
甚至马斯克的 xAI 也完全基于 SGLang 完全重写了 Grok-2 的推理代码堆栈，显著提高了分析信息和输出响应的速度。

在这里插入图片描述

Paper：SGLang: Efficient Execution of Structured Language Model Programs
Abs：https://arxiv.org/abs/2312.07104
Code：https://github.com/sgl-project/sglang

9月3日11点，青稞Talk第21期，Databricks Mosaic Research研究科学家，斯坦福大学博士盛颖，将直播分享《SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎》。