SGLang、FlashInfer和MLC LLM：探讨大模型LLM高效部署和服务

最新推荐文章于 2024-10-10 11:54:20 发布

青稞社区.

最新推荐文章于 2024-10-10 11:54:20 发布

阅读量177

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/QingKeLab/article/details/142793360

版权

关注公众号：青稞AI，第一时间学习最新AI技术

SGLang 是 LMSYS Org 团队于开源的一个用于 LLM 和 VLM 的通用服务引擎，采用 Apache 2.0 许可授权。它由纯 Python 编写，核心调度器只用了不到 4K 行代码就实现了，已被 LMSYS Chatbot Arena 用于支持部分模型、Databricks、几家初创公司和研究机构，产生了数万亿 token，实现了更快的迭代。

https://github.com/sgl-project/sglang

在这里插入图片描述

FlashInfer 是一个由 UW、CMU 和 OctoAI 的研究者们开源的一个大型语言模型库，可提供 LLM GPU 内核（例如 FlashAttention、SparseAttention、PageAttention、Sampling等）的高性能实现，提供了PyTorch API用于快速开发，以及header-only的C++ API，可以方便地集成到LLM服务引擎中。FlashInfer已被多个LLM服务框架所集成，包括 MLC-LLM (用于CUDA后端)和 SGLang。

https://github.com/flashinfer-ai/flashinfer/

在这里插入图片描述

MLC LLM 是 CMU 助理教授、OctoML CTO 陈天奇等多位研究者共同开源的一个用于大型语言模型的机器学习编译器和高性能部署引擎。可以「在任何设备上编译运行大语言模型」，包括移动端（例如 iPhone）、消费级电脑端（例如 Mac）和 Web 浏览器。

https://github.com/mlc-ai/mlc-llm

10月17日7点，SGLang、FlashInfer和MLC LLM三个项目团队联合举办大模型高效部署与服务线上研讨会！三个项目的核心开发者们将共同分享、探讨他们在LLM高效部署和服务方面的不同见解。

议程

7:00 - 7:45 SGLang
演讲嘉宾：尹良升、郑怜悯、鲍科
分享主题：SGlang 中的低CPU 开销调度、Deepseek MLA 优化及 JSON 高效解码
7:50 - 8:35 FlashInfer
演讲嘉宾：叶子豪
分享主题：高性能LLM Serving的 Kernel 生成
8:40 - 9:30 MLC LLM
演讲嘉宾：赖睿航、董易昕、陈天奇
分享主题：通用 LLM 部署、低延时服务及基于 Grammar 的快速解码