HEXGEN-TEXT2SQL: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL Workflows

在这里插入图片描述

一、文章主要内容总结

本文聚焦于基于大语言模型(LLM)的智能文本到SQL系统在异构GPU集群中的调度与执行问题,提出了HEXGEN-TEXT2SQL框架,旨在解决多阶段工作流、严格延迟约束和资源异构性带来的挑战。核心内容包括:

  1. 问题分析:现有LLM服务框架无法有效处理文本到SQL工作流中的任务依赖、延迟变化和资源异构性,导致服务级别目标(SLO)频繁违反。
  2. 框架设计
    • 分层调度策略:全局负载均衡调度器根据模型实例的处理能力和当前负载分配任务;本地优先级队列基于任务紧迫性动态调整执行顺序,支持任务抢占。
    • 轻量级仿真调参:通过仿真动态调整调度超参数α,平衡任务适配性与负载均衡,提升系统鲁棒性。
  3. 实验验证:在真实文本到SQL基准测试中,HEXGEN-TEXT2SQL相比vLLM,延迟降低1.41倍(最高1.67倍),吞吐量提升
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值