陈天奇团队开源XGrammar:近零开销实现LLM结构化生成

关注公众号:青稞AI,学习最新AI技术
青稞Talk主页:http://qingkelab.github.io/talks

LLM Agents 的应用正变得日益复杂和多样化。例如生成代码、函数调用和机器人指令生成等的新应用对大模型的结构化生成提出了很高的需求。

为了实现精确的结构化生成,受限解码是一种常见的方法,而上下文无关文法是一种灵活的指定生成结构的方式。然而,在受限解码中支持上下文无关文法对效率提出了很高的挑战。

为了解析上下文无关文法,在运行时,我们需要在当前的堆栈状态上处理词汇表中的所有token。由于词汇表较大,这给结构化生成带来了不可忽视的开销。

为此,陈天奇团队提出了 XGrammar,一种面向大语言模型的结构化生成引擎,其同时满足了灵活性和高效性的需求。

XGrammar 通过将词汇表划分为被预处理好的上下文无关标记,和需要在运行时检测的上下文相关标记,来加速上下文无关文法的解析。同时,还进一步构建了一套分析上下文无关文法的算法,通过获取额外的上下文来减少上下文相关标记的数量。

此外,团队还设计了一个高效的可持久化堆栈数据结构,以加速上下文相关标记的检查。

最后,将结构化生成引擎与 LLM 推理引擎联合设计,实现了语法的计算与 LLM推理的重叠。

评估结果表明,与现有解决方案相比,XGrammar 的速度提升最高超过 100 倍。结合 LLM 推理引擎,它能够在端到端低延迟 LLM 服务中实现近乎零额外开销的结构化生成。

XGrammar 已开源,可以在 Github 上查看源码:

Paper:Grammar: Flexible and Efficient Structured Generation Engine for Large Language Models
Abs:https://arxiv.org/pdf/2411.15100
Code:https://github.com/mlc-ai/xgrammar

12月21日11点,青稞Talk 第33期,CMU 博士生董易昕,将直播分享《XGrammar:高效实现 LLM灵活且可移植的结构化生成》。

分享嘉宾

董易昕,卡内基梅隆大学计算机科学系的一年级博士生,导师为陈天奇教授;本科毕业于上海交通大学计算机科学专业(ACM班);研究聚焦于机器学习与系统的交叉领域,尤其对LLM Agents研究感兴趣;作为一名开源软件和项目的拥护者,共同领导并参与了一些流行的项目,包括 MLC-LLM 和 Apache TVM Unity,同时也担任 Apache TVM Reviewer;曾经在华盛顿大学与 Luis Ceze 教授共同研究。

主题提纲

XGrammar:高效实现 LLM 灵活且可移植的结构化生成

1、大模型结构化生成方法概述及挑战

2、面向大语言模型的结构化生成引擎 XGrammar

- 上下文无关语法的解析

- 高效可持久化的堆栈数据结构

- 与 LLM 推理引擎的联合设计

3、XGrammar 应用实践

直播时间

12月21日(周六)11:00 -12:00

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值