关注公众号:青稞AI,第一时间了解最新AI技术
🔥青稞Talk主页:qingkelab.github.io/talks
SGLang 是 LMSYS Org 团队于今年 1 月份正式推出的一个用于 LLM 和 VLM 的通用服务引擎,且完全开源,采用 Apache 2.0 许可授权。它由纯 Python 编写,核心调度器只用了不到 4K 行代码就实现了,已被 LMSYS Chatbot Arena 用于支持部分模型、Databricks、几家初创公司和研究机构,产生了数万亿 token,实现了更快的迭代。
在最新的 SGLang Runtime v0.2 中,其性能更加惊艳。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM,甚至能达到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。目前已在 GitHub 上已经收获了超过 4.7k 的 star 量。
此次更新的效果就连 Lepton AI 联合创始人兼 CEO 贾扬清都评价说:我一直被我的博士母校加州大学伯克利分校惊艳,因为它不断交付最先进的人工智能和系统协同设计成果。去年我们看到了 SGLang 的使用,现在它变得更好了。迫不及待地想在产品中部署并尝试新的 SGLang!
甚至马斯克的 xAI 也完全基于 SGLang 完全重写了 Grok-2 的推理代码堆栈,显著提高了分析信息和输出响应的速度。
Paper:SGLang: Efficient Execution of Structured Language Model Programs
Abs:https://arxiv.org/abs/2312.07104
Code:https://github.com/sgl-project/sglang
9月3日11点,青稞Talk第21期,Databricks Mosaic Research研究科学家,斯坦福大学博士盛颖,将直播分享《SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎》。
Talk信息
主题提纲
SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎
1、从Simple Chat 到 LLM Programs,现有大模型推理系统的挑战
2、SGLang 技术结构解析:
- RadixAttention
- Upper-level Scheduling
3、SGLang v0.2 部署应用实践及未来开发
直播时间
9月3日(周二)11:00-12:00
参与方式
Talk 将在青稞·知识社区上进行,添加【ai_qingke113】对暗号:" 0903 ",报名进群!