【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark 经典的 GLUE benchmark:包含 9 个 NLU 任务来评估 LM 的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks,语言均为英语。
【LLM 评估】MMLU benchmark:用于衡量 LM 的多任务语言理解能力 一个 benchmark:涉及 57 个 subjects 的多项选择题的数据集,共 15908 个 questions
【Text2SQL 论文】MCS-SQL:利用多样 prompts + 多项选择来做 Text2SQL MCS-SQL 利用 LLM 的输出对 ICL exemplars 敏感的特点,通过变换 exemplars 的选择和呈现顺序,构建出多个 prompts 来得到多个候选 SQL,然后再过滤后引导 LLM 从中选出最精确的 SQL。
【Text2SQL 论文】MAGIC:为 Text2SQL 任务自动生成 self-correction guideline 这篇论文着重指出了 in-context learning 的 Text2SQL 任务中 self-correction 的新颖视角,将提升 Text2SQL 中的 self-correction 作为一个单独的任务,克服了以往方法需要手工设计 self-correction guideline 的缺点。同时,这篇论文还解决了自动修复人类生成的错误 SQL 的重要任务,展示了 LLM 进行自我校正的能力。
【LLM 论文】Self-Refine:使用 feedback 迭代修正 LLM 的 output 论文提出了 Self-Refine,核心就是反复迭代 Feedback 和 Refine 操作,从而让 LLM 在具体任务上有更好的表现。论文在多个任务上进行了实验,发现 Self-Refine 可以有效地在各种任务上提升 LLM 的表现,当在较弱的小模型上则表现不佳(会重复输出)。
【Text2SQL 论文】CodeS:Text2SQL 领域的开源语言模型 这篇论文开源了一个很不错的 Text2SQL 领域的 LLM,并同时开放了相关的新的数据集,在实际部署时,无论是基于 CodeS 还是另外再微调,这篇论文的思路都值得参考。
【Text2SQL 论文】CHESS:利用上下文来合成 SQL 的 pipeline CHESS pipeline 在 BIRD 和 Spider 数据集上都取得了不错的表现。此外,CHESS 还开发了一个完全开源的版本,可以私有部署,且在 BIRD 上执行准确率超过 60%,缩小了闭源和开源 LLM 的性能差距,同时保证了企业数据隐私。但对于 BIRD 数据集,目前的模型仍然不如人类写 SQL 的表现,未来的工作应该旨在进一步缩小这个差距。此外,设计更高精度的 schema selection 方法是未来研究的一个高影响领域,可以对准确性产生巨大影响。
【Text2SQL 论文】PET-SQL:用 Cross-Consistency 的 prompt 增强的两阶段 Text2SQL 框架 PET-SQL 的两阶段思路还是挺好理解上,prompt 设计上主要多了 db content 样例,整个过程中,使用 question de-semanticization 来提取问题骨架表示问题意图在实现上应该是整个流程里最复杂的。
【Text2SQL 论文】C3:使用 ChatGPT 实现 zero-shot Text2SQL 本文提出的 C3 基于 ChatGPT 实现了 zero-shot Text2SQL,并取得了 zero-shot 的最好性能。C3 从模型输入、模型偏差和模型输出三个角度为基于 GPT 的 Text2SQL 提供了系统的处理方法。这些方法值得后面的研究来参考。
【Text2SQL 论文】How to prompt LLMs for Text2SQL 整的来说,论文在三种 Text2SQL ICL settings 中比较了各种 prompt constructions 的效果,为未来的研究提供了指导。
【Text2SQL 论文】QDecomp:探索 CoT-style 的 prompt 来解决 Text2SQL 本文基于 Codex 的 LLM 来探索了 CoT-style 的 prompting 效果,增强了 LLM 对 Text2SQL 解析的推理能力。论文发现了 CoT 在 Text2SQL 任务中会出现错误传播问题,本文提出的 QDecomp 方法是缓解 LLM 多步骤推理中错误传播问题的尝试之一,之后值得对这个问题进行更深一步的探讨。
【Text2SQL 论文】MAC-SQL:多个 Agents 合作来解决 Text2SQL 本论文利用多个 agents 合作的思路来解决 Text2SQL 任务,同时提供了一个开源的 SQL-Llama 模型,在 BIRD 数据集上实现了 SOTA 效果。
【Text2SQL 论文】DBCopilot:将 NL 查询扩展到大规模数据库 指的是:只给定 user question 而不给定预期的 SQL query schema(DB 和 DB tables),来生成一个可以在一个数据库集合中的某个 DB 上执行的 SQL。像之前 WikiSQL 数据集上,都是指定 question 在哪个 DB 上的。本文提出了 DBCopilot 模型,给出了一种将 NL 查询扩展到大规模数据库的思路,通过 LLM 协作来解决模式无关的 NL2SQL 任务。
【Text2SQL 论文】DIN-SQL:分解任务 + 自我纠正 + in-context 让 LLM 完成 Text2SQL 本论文设计的 prompt 以及思路让 LLM 在解决 Text2SQL 任务上有了不错的表现,产生了与最先进的微调方法相当甚至更优的结果。但是,本文的思路需要多轮与 LLM 交互,从而产生了巨大的花费和延迟,论文给出,在使用 GPT4 响应 Spider 数据集中 question 时表现出大约 60s 的延迟。
【Text2SQL 论文】T5-SR:使用 T5 生成中间表示来得到 SQL 本文模型是通过引入中间表示并使用 seq2seq(T5)来解决 Text2SQL 任务,同时论文中也指出了使用 seq2seq 在 Text2SQL 任务下的难点。该工作还引入了 SSQL 这样的中间表示,它比 SemQL、RAT-SQL IR 等中间表示要简单不少。
【Text2SQL 论文】评估 ChatGPT 的 zero-shot Text2SQL 能力 与 ChatGPT 进行多轮交互,以解决生成不可执行的 SQL 语句的问题利用 DB 的报错来设计多轮对话,从而确保生成的 SQL 正确性引入 in-context learning。