
【论文阅读】CLUSTERED RETRIEVED AUGMENTED GENERATION (CRAG)
本文提出了一种名为CRAG(聚类式检索增强生成)的新方法,用于解决传统RAG(检索增强生成)在处理大规模外部知识时面临的上下文窗口限制和高Token成本问题。CRAG通过三个步骤优化流程:对评论数据进行聚类、摘要和聚合,显著减少了输入Token数量。实验表明,相比传统RAG,CRAG在不降低回答质量的前提下能减少46%-90%的Token使用量,且随着数据量增长优势更加明显。该方法在亚马逊手机评论数据集上验证有效,适用于GPT-4等多种大语言模型,为处理海量文本数据提供了一种高效实用的解决方案。


【论文阅读】HEXGEN-TEXT2SQL: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL Workflows
HEXGEN-TEXT2SQL: 异构GPU集群上优化多阶段Text-to-SQL工作流的LLM推理调度框架 本文提出HEXGEN-TEXT2SQL框架,针对异构GPU集群中多阶段LLM驱动的Text-to-SQL工作流调度问题。通过分层调度方法(全局负载均衡+局部紧急性优先级队列)和轻量级仿真优化超参数,系统显著提升资源利用率并降低SLO违规率。实验显示,相比vLLM基线,该框架将延迟缩短1.41倍,吞吐量提升1.65倍。不足在于复杂查询优化和多租户公平性保障有待改进,未来可结合查询分析和动态资源分配进一