SGLang、FlashInfer和MLC LLM:探讨大模型LLM高效部署和服务

关注公众号:青稞AI,第一时间学习最新AI技术

SGLang 是 LMSYS Org 团队于开源的一个用于 LLM 和 VLM 的通用服务引擎,采用 Apache 2.0 许可授权。它由纯 Python 编写,核心调度器只用了不到 4K 行代码就实现了,已被 LMSYS Chatbot Arena 用于支持部分模型、Databricks、几家初创公司和研究机构,产生了数万亿 token,实现了更快的迭代。

https://github.com/sgl-project/sglang

在这里插入图片描述

FlashInfer 是一个由 UW、CMU 和 OctoAI 的研究者们开源的一个大型语言模型库,可提供 LLM GPU 内核(例如 FlashAttention、SparseAttention、PageAttention、Sampling等)的高性能实现,提供了PyTorch API用于快速开发,以及header-only的C++ API,可以方便地集成到LLM服务引擎中。FlashInfer已被多个LLM服务框架所集成,包括 MLC-LLM (用于CUDA后端)和 SGLang。

https://github.com/flashinfer-ai/flashinfer/

在这里插入图片描述

MLC LLM 是 CMU 助理教授、OctoML CTO 陈天奇等多位研究者共同开源的一个用于大型语言模型的机器学习编译器和高性能部署引擎。可以「在任何设备上编译运行大语言模型」,包括移动端(例如 iPhone)、消费级电脑端(例如 Mac)和 Web 浏览器。

https://github.com/mlc-ai/mlc-llm

10月17日7点,SGLang、FlashInfer和MLC LLM三个项目团队联合举办大模型高效部署与服务线上研讨会!三个项目的核心开发者们将共同分享、探讨他们在LLM高效部署和服务方面的不同见解。

议程

  • 7:00 - 7:45 SGLang
    演讲嘉宾:尹良升、郑怜悯、鲍科
    分享主题:SGlang 中的低CPU 开销调度、Deepseek MLA 优化及 JSON 高效解码
  • 7:50 - 8:35 FlashInfer
    演讲嘉宾:叶子豪
    分享主题:高性能LLM Serving的 Kernel 生成
  • 8:40 - 9:30 MLC LLM
    演讲嘉宾:赖睿航、董易昕、陈天奇
    分享主题:通用 LLM 部署、低延时服务及基于 Grammar 的快速解码

参与方式

添加【ai_qingke113】对暗号:" ELLM ",报名进群!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值