关注公众号:青稞AI,学习最新AI技术
青稞Talk主页:http://qingkelab.github.io/talks
LLM Agents 的应用正变得日益复杂和多样化。例如生成代码、函数调用和机器人指令生成等的新应用对大模型的结构化生成提出了很高的需求。
为了实现精确的结构化生成,受限解码是一种常见的方法,而上下文无关文法是一种灵活的指定生成结构的方式。然而,在受限解码中支持上下文无关文法对效率提出了很高的挑战。
为了解析上下文无关文法,在运行时,我们需要在当前的堆栈状态上处理词汇表中的所有token。由于词汇表较大,这给结构化生成带来了不可忽视的开销。
为此,陈天奇团队提出了 XGrammar,一种面向大语言模型的结构化生成引擎,其同时满足了灵活性和高效性的需求。
XGrammar 通过将词汇表划分为被预处理好的上下文无关标记,和需要在运行时检测的上下文相关标记,来加速上下文无关文法的解析。同时,还进一步构建了一套分析上下文无关文法的算法,通过获取额外的上下文来减少上下文相关标记的数量。
此外,团队还设计了一个高效的可持久化堆栈数据结构,以加速上下文相关标记的检查。
最后,将结构化生成引擎与 LLM 推理引擎联合设计,实现了语法的计算与 LLM推理的重叠。
评估结果表明,与现有解决方案相比,XGrammar 的速度提升最高超过 100 倍。结合 LLM 推理引擎,它能够在端到端低延迟 LLM 服务中实现近乎零额外开销的结构化生成。
XGrammar 已开源,可以在 Github 上查看源码:
Paper:Grammar: Flexible and Efficient Structured Generation Engine for Large Language Models
Abs:https://arxiv.org/pdf/2411.15100
Code:https://github.com/mlc-ai/xgrammar
12月21日11点,青稞Talk 第33期,CMU 博士生董易昕,将直播分享《XGrammar:高效实现 LLM灵活且可移植的结构化生成》。
分享嘉宾
董易昕,卡内基梅隆大学计算机科学系的一年级博士生,导师为陈天奇教授;本科毕业于上海交通大学计算机科学专业(ACM班);研究聚焦于机器学习与系统的交叉领域,尤其对LLM Agents研究感兴趣;作为一名开源软件和项目的拥护者,共同领导并参与了一些流行的项目,包括 MLC-LLM 和 Apache TVM Unity,同时也担任 Apache TVM Reviewer;曾经在华盛顿大学与 Luis Ceze 教授共同研究。
主题提纲
XGrammar:高效实现 LLM 灵活且可移植的结构化生成
1、大模型结构化生成方法概述及挑战
2、面向大语言模型的结构化生成引擎 XGrammar
- 上下文无关语法的解析
- 高效可持久化的堆栈数据结构
- 与 LLM 推理引擎的联合设计
3、XGrammar 应用实践
直播时间
12月21日(周六)11:00 -12:00