SQL-o1：一种用于Text-to-SQL的自奖励启发式动态搜索方法

Paper易论

已于 2025-02-24 07:02:07 修改

阅读量1.4k

点赞数 36

文章标签：人工智能 ai 语言模型 sql

于 2025-02-24 07:01:42 首次发布

本文链接：https://blog.csdn.net/u013524655/article/details/145819183

版权

1 引言

文本到SQL (Text2SQL) 任务旨在将自然语言查询转换为可执行的SQL查询。得益于大规模语言模型 (LLMs) 的应用，该领域取得了显著进展。然而，模型的可扩展性、生成空间的限制以及SQL生成过程中的连贯性问题仍然存在。为了解决这些问题，我们提出了SQL-o1，一种基于自奖励的启发式搜索方法，旨在增强LLMs在SQL查询生成中的推理能力。SQL-o1结合了蒙特卡洛树搜索 (MCTS) 进行过程级搜索，并构建了一个Schema-Aware数据集，以帮助模型更好地理解数据库模式。广泛的实验表明，SQL-o1在复杂的Bird数据集上的执行准确率比最新的基线方法提高了10.8%，甚至超过了基于GPT-4的方法。此外，SQL-o1在少量样本学习场景中表现出色，并且具有强大的跨模型迁移能力。我们的代码已公开可用1。

1.1 介绍

Text2SQL是指将自然语言问题转换为结构化查询语言 (SQL) 的过程，作为非专业用户使用自然语言与数据库交互的有效方法。该领域的发展可以分为三个阶段：首先，使用预训练模型或抽象语法树对输入序列进行编码和解码 (Wang et al., 2020)；其次，采用序列到序列方法 (Xie et al., 2022)；最近，大规模语言模型 (LLMs) (Zhang et al., 2025) 被证明是Text2SQL的有效解决方案。然而，准确地将自然语言查询与数据库中的数据对齐仍然是一个重大挑战。

最近关于基于LLMs的Text2SQL的研究主要集中在通过上下文学习提示策略和特定领域的监督微调来提高模型性能。该领域的关键方法包括Schema Linking、Self-correction和Chain-of-Thought (CoT) (Tai et al., 2023)，旨在增强模型对模式的理解、提高其推理能力，并帮助生成更准确的SQL查询。

然而，仍存在三个主要挑战：1. 这些方法通常受到模型规模的限制。较小的LLMs在理解复杂指令方面的能力有限，导致在处理复杂任务时泛化能力较差。2. 端到端生成方法受到生成空间的限制。由于缺乏逐步验证和灵活调整的机会，模型在生成过程中难以探索更多潜在路径，限制了输出的多样性和准确性。3. 在SQL生成过程中存在推理过程的连贯性问题。如果在任何步骤中出现错误，通常会影响后续步骤的正确性，导致最终生成的SQL查询无法正确执行。

受Process-supervised Reward Model (Luo et al., 2023) 的启发，我们提出了SQL-o1，一种基于自奖励的启发式搜索方法，如图 1 所示。首先，我们广泛挖掘数据库模式，收集表列字段、代表性实体等信息，构建一个Schema-Aware数据集，用于微调大规模语言模型 (LLMs)。此外，我们引入蒙特卡洛树搜索 (MCTS) (Swiechowski et al. ´ , 2023) 作为推理媒介，利用过程级推理和自奖励减少LLMs生成过程中的逻辑错误。通过扩展生成空间并克服SQL生成的一致性挑战，我们显著增强了LLMs的推理能力。

我们在Bird和Spider数据集及其三个变体上进行了实验。实验结果表明，SQL-o1结合常见的开源模型（如Llama 3 (Touvron et al., 2023) 和Qwen 2.5 (Yang et al., 2024a)）显著优于大多数现有方法，甚至超过了其他基于GPT-4的方法。此外，我们在少量样本微调场景中应用SQL-o1，结果表明当样本量达到2000时，几乎所有性能指标都超过了在完整数据集上微调的模型。最后，我们还讨论了SQL-o1的迁移能力和其组件的贡献。我们的贡献可以总结如下：

1. 我们从多个角度提取数据库信息，构建了一个Schema-Aware数据集，以促进LLMs的渐进式SQL生成 (PSG)。
1. 我们提出了SQL-o1，一种基于自奖励的启发式搜索方法，显著减少了SQL生成过程中的连贯性问题，同时扩展了SQL生成空间。
1. 我们进行了全面的评估和广泛的实验，充分验证了SQL-o1的有效性和迁移能力。

2 相关工作

Text2SQL任务近年来取得了显著进展，主要集中在大规模语言模型 (LLMs) 上，其出色的推理能力为Text2SQL任务提供了新的方向和机会。目前，基于LLMs的方法可以大致分为两类：提示工程和基于代理的LLMs交互。

2.1 提示工程

在LLMs的早期阶段，一种直接有效的方法是精心设计有效的提示，以更好地利用LLMs的潜力，这同样适用于Text2SQL任务。通过Chain of Thought (Zhang et al., 2023) 增强LLMs的推理能力是一个有前景的尝试。一些方法 (Wang et al., 2024; Pourreza and Rafiei, 2023; Li et al., 2024a) 利用模式链接将自然语言问题与数据库模式元素结合，取得了令人满意的结果。其中，DAIL-SQL (Gao et al., 2024) 系统地研究了提示工程在基于LLMs的文本到SQL方法中的应用，包括问题表示、提示组件、示例选择和示例组织。

最近，一些研究将注意力从提示工程（例如GPT-4和其他封闭源模型）转向了LLMs的微调。SENSE (Yang et al., 2024b) 合成强数据，并对弱LLM生成的弱数据进行直接偏好优化 (DPO)，而ROUTE (Qin et al., 2024) 提出了一种多任务协同微调方法，减少了SQL生成中的潜在错误，取得了更好的结果。

2.2 基于代理的LLMs交互

基于代理的交互方法 (Chen et al., 2024b) 通过设计反馈信号引导LLMs生成准确的SQL查询。早期的工作 (Shi et al., 2022) 专注于基于执行结果改进SQL，通过执行SQL查询并根据执行风险选择最准确的翻译。其他工作 (Chen et al., 2024a; Guo et al., 2023) 利用LLMs检查结果并纠正生成的SQL与真实SQL查询之间的差异。MAC-SQL (Wang et al., 2024) 引入了多代理框架和其他新颖的交互方法 (Xiong et al., 2024)。然而，这些方法大多依赖高质量的外部反馈，这在实际应用中往往不可用，并且主要依赖封闭源LLMs，忽视了开源LLMs在推理方面的潜力。

3 基础知识

3.1 问题定义

给定一个Text2SQL数据集 D = {(Di , Qi , Si)} N i=1，其中每个样本包含一个SQL数据库 Di 、一个自然语言问题 Qi 和相应的 ground-truth SQL 查询 Si ，Text2SQL任务的目标是使用大规模语言模型生成一个SQL查询 Qi ′，并确保其执行结果与 Si 匹配。

3.2 定义：自奖励启发式动态搜索

自奖励启发式动态搜索主要由一系列状态 O = {o0, o1, o2, …, ot−1} 和基于这些状态生成的动作序列 A = {a1, a2, …, at} 组成。每次执行动作 at 时，模型将收到相应的奖励 Rt ∈ R。奖励和动作均由模型 π 生成。

4 方法

在本节中，我们将介绍SQL-o1的三个组成部分：Schema-Aware数据构建、渐进式SQL生成和自奖励启发式动态搜索。

4.1 Schema-Aware数据构建

SQL-o1需要在进行启发式动态搜索之前准确理解数据库结构和查询条件。因此，我们设计了提取表字段类型和样本数据条目的策略，以帮助模型更好地掌握数据库模式，从而优化启发式搜索过程。

4.1.1 表列字段类型

列的数据类型决定了字段中可以存储的值以及这些值的处理方式。在构建Text2SQL提示时，指定列的数据类型至关重要，因为不同的数据类型需要不同的处理。例如，数值 (NUMBER) 数据支持加法和平均等数学运算，而文本 (TEXT) 数据通常用于过滤和匹配。这些类型指示符有助于模型正确生成SQL查询。

4.1.2 每个表的示例条目

示例数据库条目是指数据库表中的小部分数据，帮助模型理解数据的内容和结构。在Text2SQL任务中，提示中的示例数据帮助模型将自然语言查询映射到特定的数据库条目。例如，生成查询 “orders.order_date BETWEEN ‘2022-01-01’ AND ‘2022-12-31’” 时，模型需要理解 “order_date” 列的日期格式。同样，对于 “products.category” 字段，模型应识别 “category” 列中的特定值，如 “Electronics” 或 “Clothing”。通过提供代表性示例数据，模型可以更好地理解列的内容和格式，从而更准确地生成SQL查询。

4.1.3 关键约束

主键和外键定义了数据库表之间的关系。例如，表A中的 “ID” 和 “Type” 列作为主键，而表B中的 “ID” 连接到表A中的 “ID”，形成关系 A.ID = B.ID。这种关系有助于模型理解如何连接表并正确检索数据，是识别表之间的依赖关系和连接条件的关键。

4.2 渐进式SQL生成

渐进式SQL生成 (PSG) 是监督微调 (SFT) 的一种变体，核心思想是在训练过程中在特定关键字处截断完整的SQL查询，模型的任务是根据提示重建完整的查询。我们主要关注预训练的大规模语言模型中预测错误或复杂语法结构的SQL查询。例如，在查询 ‘SELECT name, age FROM employees WHERE Department = ‘HR’ AND salary > 50000’ 中，截断发生在关键字 ‘WHERE’ 或 ‘AND’ 处，而不是任意位置。如果截断发生在 ‘SELECT name, age FROM employees WHERE’，模型需要从这个片段生成完整的查询。

这种增量生成方法利用了LLMs的连续生成能力，帮助模型更好地理解查询结构和语法，减少生成错误，特别是在处理多个连接或复杂过滤条件时。

基于上述内容，我们为LLMs开发了一个基本的微调数据集，主要包括第 4.1 和 4.2 节的内容。我们表示构建的数据集为：

$D_s = \{ \sigma_p(\mathcal{D}_i, \mathcal{Q}_i), \mathcal{S}_i \}_{i=1}^{N_s},$

其中 σp 表示我们定义的提示构建函数，Ns 表示数据集中的样本总数。

4.3 自奖励启发式动态搜索

本节提出的方法结合了强化学习框架、蒙特卡洛树搜索 (MCTS) 和自奖励评估，以指导模型在SQL查询生成过程中的决策。根据算法的组成部分，该方法主要分为：SQL生成规划、自奖励评估和启发式动态搜索。

4.3.1 SQL生成规划

我们将SQL查询生成任务定义为一个顺序决策任务，模型的目标是根据当前上下文选择下一个SQL片段（如表名、列名或SQL关键字）。这被视为一个策略生成问题，目标是教会模型一种策略，以最大化生成正确SQL查询的可能性：

$a_t = \underset{a_t'}{\text{argmax}} \,\pi(a_t' \mid o_{t-1}).\tag{1}$

方程 (1) 描述了策略模型 π 如何根据前一个状态 ot−1（即前一个步骤生成的SQL片段）选择最优动作 at（即第 t 步生成的SQL片段）。具体来说，模型选择一个可能的SQL片段 a ′ t，以最大化概率 π(a ′ t | ot−1)。

4.3.2 自奖励评估

该任务的目标是根据当前状态评估生成的SQL查询片段的质量和有效性，提供奖励和反馈信号以指导决策过程。具体来说，我们提出了一种评分函数 Rπ，利用 π 的对数概率值评估给定输入 x 生成输出 y 的可能性：

$R_{\pi}(y \mid x) = \beta + \alpha \log \pi(y \mid x), \qquad (2)$

其中 β 是定义的满分，设为100，α 是一个正温度值，用于控制分数的差异。

4.3.3 启发式动态搜索

蒙特卡洛树搜索 (MCTS) 是一种强大的决策算法，广泛应用于博弈论（如AlphaGo）和规划问题。如图 2 所示，我们使用MCTS作为启发式搜索方法，以指导SQL查询生成。它逐步探索和生成SQL查询序列，模拟结果，并根据自奖励指导优化搜索路径。

选择。MCTS的选择阶段从根节点开始，遍历子节点直到到达叶节点。每个节点代表SQL查询生成过程中的一个决策点，模型根据方程 (1) 选择下一个有效的SQL标记，逐步生成查询。在关键的语法和语义决策点，模型使用启发式截断扩展部分查询。然后应用UCT算法指导节点选择，平衡未访问查询结构的探索和高奖励路径的利用：

$n_t = \underset{n \in \mathcal{N}(o_{t-1})}{\text{argmax}} \left[ Q(o_{t-1} + n) + w \cdot \frac{\sqrt{\ln N(o_{t-1})}}{N(o_{t-1} + n)} \right] \tag{3}$

其中 N (.) 表示给定状态 ot−1 的候选扩展路径，Q(.) 表示当前状态的Q值，反映执行动作的预期回报。N(.) 表示代理状态的访问次数。

扩展。选择过程选择最相关的SQL查询作为候选扩展。当最大查询深度 L 未达到时，模型继续通过探索下一个可能的SQL操作或子句来扩展查询：

$\left\{ n_t^{(b)} \right\}_{b=1}^{B} \sim \pi \left( n_t | o_{t-1} \right)_{Beam},\qquad(4)$

其中，π(.)Beam 表示束搜索算法，B 是束宽度。然后，模型根据与前一个查询片段的语义相似性选择最相关的SQL操作进行扩展：

$\begin{aligned} \mathcal{N}(o_{t-1}) &= \left\{ n_t^{(i)} \right\}_{i=1}^d \leftarrow \operatorname*{argmax}_d \\ R_\pi \left( \left\{ n_t^{(b)} \right\}_{b=1}^B \mid o_{t-1} \right), \quad (5) \end{aligned}$

其中 Rπ 表示评估每个候选扩展质量的奖励函数，d < B。例如，如果当前状态是 “user” 表的部分查询，模型可能会生成 “SELECT user.id” 或 “SELECT user.name” 并根据其与输入问题的语义相关性选择候选。

模拟和回溯。扩展节点后，模型为所有新添加的子节点分配分数，如方程 (2) 和 (6) 所示。根据方程 (7)，选择得分最高的节点进行进一步模拟，直到达到最终状态，从而生成完整的SQL查询生成轨迹。

$Q(o_l^{(n)}) = \delta R_\pi(n_l \mid o_{l-1}^{(n)}) + (1 - \delta)R_\pi(\mathcal{S} \mid \mathcal{Q}),\tag{6}$

其中 δ 是一个介于 (0, 1) 之间的参数，用于平衡过程得分和总得分，通常设为0.5。算法通过更新从叶节点到根节点的所有节点的Q值进行回溯。

$$Q(o_t^{(n)}) = \max_{j=1}^n \left( \frac{\sum_{i=l}^t Q(o_i^{(j)})}{l - t### 4.3 自奖励启发式动态搜索

4.3.1 SQL生成规划

$a_t = \underset{a_t'}{\text{argmax}} \,\pi(a_t' \mid o_{t-1}).\tag{1}$

方程 (1) 描述了策略模型 π 如何根据前一个状态 ( o_{t-1} )（即前一个步骤生成的SQL片段）选择最优动作 ( a_t )（即第 t 步生成的SQL片段）。具体来说，模型选择一个可能的SQL片段 ( a_t’ )，以最大化概率 ( \pi(a_t’ \mid o_{t-1}) )。

4.3.2 自奖励评估

该任务的目标是根据当前状态评估生成的SQL查询片段的质量和有效性，提供奖励和反馈信号以指导决策过程。具体来说，我们提出了一种评分函数 ( R_\pi )，利用 π 的对数概率值评估给定输入 ( x ) 生成输出 ( y ) 的可能性：

$R_{\pi}(y \mid x) = \beta + \alpha \log \pi(y \mid x), \qquad (2)$

其中 ( \beta ) 是定义的满分，设为100，( \alpha ) 是一个正温度值，用于控制分数的差异。

4.3.3 启发式动态搜索

$n_t = \underset{n \in \mathcal{N}(o_{t-1})}{\text{argmax}} \left[ Q(o_{t-1} + n) + w \cdot \frac{\sqrt{\ln N(o_{t-1})}}{N(o_{t-1} + n)} \right] \tag{3}$

其中 ( N(\cdot) ) 表示给定状态 ( o_{t-1} ) 的候选扩展路径，( Q(\cdot) ) 表示当前状态的Q值，反映执行动作的预期回报。( N(\cdot) ) 表示代理状态的访问次数。

扩展。选择过程选择最相关的SQL查询作为候选扩展。当最大查询深度 ( L ) 未达到时，模型继续通过探索下一个可能的SQL操作或子句来扩展查询：

$\left\{ n_t^{(b)} \right\}_{b=1}^{B} \sim \pi \left( n_t | o_{t-1} \right)_{\text{Beam}},\qquad(4)$

其中，( \pi(\cdot)_{\text{Beam}} ) 表示束搜索算法，( B ) 是束宽度。然后，模型根据与前一个查询片段的语义相似性选择最相关的SQL操作进行扩展：

其中 ( R_\pi ) 表示评估每个候选扩展质量的奖励函数，( d < B )。例如，如果当前状态是 “user” 表的部分查询，模型可能会生成 “SELECT user.id” 或 “SELECT user.name” 并根据其与输入问题的语义相关性选择候选。

$Q(o_l^{(n)}) = \delta R_\pi(n_l \mid o_{l-1}^{(n)}) + (1 - \delta)R_\pi(\mathcal{S} \mid \mathcal{Q}),\tag{6}$

其中 ( \delta ) 是一个介于 (0, 1) 之间的参数，用于平衡过程得分和总得分，通常设为0.5。算法通过更新从叶节点到根节点的所有节点的Q值进行回溯。

$Q(o_t^{(n)}) = \max_{j=1}^n \left( \frac{\sum_{i=l}^t Q(o_i^{(j)})}{l - t} \right) \tag{7}$

参考文献

Ziru Chen, Michael White, Raymond J. Mooney, Ali Payani, Yu Su, and Huan Sun. 2024b. When is tree search useful for LLM planning? it depends on the discriminator. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2024, Bangkok, Thailand, August 11-16, 2024, pages 13659–13678. Association for Computational Linguistics.
Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, and Jingren Zhou. 2023a. Text-to-sql empowered by large language models: A benchmark evaluation. CoRR, abs/2308.15363.
Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, and Jingren Zhou. 2023b. Text-to-sql empowered by large language models: A benchmark evaluation. arXiv preprint arXiv:2308.15363.
Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, and Jingren Zhou. 2024. Text-to-sql empowered by large language models: A benchmark evaluation. Proc. VLDB Endow., 17(5):1132–1145.
Chunxi Guo, Zhiliang Tian, Jintao Tang, Pancheng Wang, Zhihua Wen, Kang Yang, and Ting Wang. 2023. Prompting GPT-3.5 for text-to-sql with de-semanticization and skeleton retrieval. In PRICAI 2023: Trends in Artificial Intelligence - 20th Pacific Rim International Conference on Artificial Intelligence, PRICAI 2023, Jakarta, Indonesia, November 15-19, 2023, Proceedings, Part II, volume 14326 of Lecture Notes in Computer Science, pages 262–274. Springer.
Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. 2023. Mistral 7b. arXiv preprint arXiv:2310.06825.
Dongjun Lee, Choongwon Park, Jaehyuk Kim, and Heesoo Park. 2025. MCS-SQL: Leveraging multiple prompts and multiple-choice selection for text-to-SQL generation. In Proceedings of the 31st International Conference on Computational Linguistics, pages 337–353, Abu Dhabi, UAE. Association for Computational Linguistics.
Haoyang Li, Jing Zhang, Hanbing Liu, Ju Fan, Xiaokang Zhang, Jun Zhu, Renjie Wei, Hongyan Pan, Cuiping Li, and Hong Chen. 2024a. Codes: Towards building open-source language models for text-to-sql. Proc. ACM Manag. Data, 2(3):127.
Haoyang Li, Jing Zhang, Hanbing Liu, Ju Fan, Xiaokang Zhang, Jun Zhu, Renjie Wei, Hongyan Pan, Cuiping Li, and Hong Chen. 2024b. Codes: Towards building open-source language models for text-to-sql. Proc. ACM Manag. Data, 2(3).
Jinyang Li, Binyuan Hui, Ge Qu, Jiaxi Yang, Binhua Li, Bowen Li, Bailin Wang, Bowen Qin, Ruiying Geng, Nan Huo, Xuanhe Zhou, Chenhao Ma, Guoliang Li, Kevin C.C. Chang, Fei Huang, Reynold Cheng, and Yongbin Li. 2023. Can llm already serve as a database interface?- 周景仁. 2023a. 大型语言模型赋能的文本到SQL：基准评估. CoRR, abs/2308.15363.
高大伟, 王海斌, 李亚亮, 孙秀宇, 钱一辰, 丁博林, 周景仁. 2023b. 大型语言模型赋能的文本到SQL：基准评估. arXiv preprint arXiv:2308.15363.
高大伟, 王海斌, 李亚亮, 孙秀宇, 钱一辰, 丁博林, 周景仁. 2024. 大型语言模型赋能的文本到SQL：基准评估. Proc. VLDB Endow., 17(5):1132–1145.
郭春曦, 田志良, 唐金涛, 王盼成, 温志华, 杨康, 王婷. 2023. 通过去语义化和骨架检索提示GPT-3.5进行文本到SQL转换. In PRICAI 2023: 人工智能趋势 - 第20届太平洋地区国际人工智能会议, PRICAI 2023, 印度尼西亚雅加达, 2023年11月15-19日, 会议录, 第二部分, 卷14326的 Lecture Notes in Computer Science, 页262–274. Springer.
江阿尔伯特·Q, 萨布罗尔尔斯·亚历山大, 门施·亚瑟, 巴姆福德·克里斯, 查普洛特·德文德拉·辛格, 德拉斯卡萨斯·迭戈, 布雷桑德·弗洛里安, 伦格耶尔·吉安娜, 拉姆普尔·纪尧姆, 萨尔尼尔·露西尔, 等. 2023. Mistral 7B. arXiv preprint arXiv:2310.06825.
李东俊, 朴忠元, 金在旭, 朴熙秀. 2025. MCS-SQL: 利用多个提示和多选选择进行文本到SQL生成. In 第31届国际计算语言学会议论文集, 页337–353, 阿联酋阿布扎比. 计算语言学协会.
李浩洋, 张静, 刘汉冰, 范菊, 张晓康, 朱军, 魏任杰, 潘红燕, 李翠萍, 陈红. 2024a. Codes: 朝着构建开源文本到SQL语言模型. Proc. ACM Manag. Data, 2(3):127.
李浩洋, 张静, 刘汉冰, 范菊, 张晓康, 朱军, 魏任杰, 潘红燕, 李翠萍, 陈红. 2024b. Codes: 朝着构建开源文本到SQL语言模型. Proc. ACM Manag. Data, 2(3).
李金阳, 惠斌元, 屈戈, 杨佳曦, 李斌华, 李博文, 王柏霖, 秦博文, 耿瑞英, 火楠, 周轩和, 马晨浩, 李国良, Chang Kevin C.C., 黄飞, 程彦, 李永斌. 2023. 大型语言模型能否作为数据库接口？

一个大规模数据库支持的文本到SQL基准. In 第37届神经信息处理系统国际会议论文集, NIPS '23, 纽约州红钩, 美国. Curran Associates Inc.

罗海鹏, 孙庆丰, 徐灿, 赵普, 刘建国, 陶朝阳, 耿西波, 林庆伟, 陈世锋, 张东梅. 2023. WizardMath: 通过强化进化指令增强大型语言模型的数学推理能力. arXiv preprint arXiv:2308.09583.
普尔雷扎·穆罕默德雷扎, 拉菲伊·达伍德. 2023. DIN-SQL: 带自校正的分解上下文学习文本到SQL. In 神经信息处理系统第36届会议进展, 2023年12月10-16日, 美国路易斯安那州新奥尔良.
普尔雷扎·穆罕默德雷扎, 拉菲伊·达伍德. 2024. DTS-SQL: 利用小型大型语言模型的分解文本到SQL. In 计算语言学协会发现: EMNLP 2024, 美国佛罗里达州迈阿密, 2024年11月12-16日, 页8212–8220. 计算语言学协会.
秦阳, 陈超, 付志航, 陈泽, 彭德忠, 胡鹏, 叶杰平. 2024. Route: 文本到SQL的鲁棒多任务调优与协作. arXiv preprint arXiv:2412.10138.
施弗达, 弗里德·丹尼尔, 加兹维尼贾德·马詹, 泽特勒莫伊尔·卢克, 王思达. 2022. 自然语言到代码翻译与执行. In 第2022届计算语言学经验方法会议论文集, EMNLP 2022, 阿联酋阿布扎比, 2022年12月7-11日, 页3533–3546. 计算语言学协会.
斯维切沃斯基·马切伊, 戈德列夫斯基·康拉德, 萨维克·巴托什, 曼德祖克·雅切克. 2023. 蒙特卡洛树搜索: 最近的修改与应用综述. Artificial Intelligence Review, 56(3):2497–2562.
泰昌宇, 陈子儒, 张天舒, 邓翔, 孙焕. 2023. 探索链式思考风格提示的文本到SQL. In 第2023届计算语言学经验方法会议论文集, EMNLP 2023, 新加坡, 2023年12月6-10日, 页5376–5393. 计算语言学协会.
图弗罗·雨果, 拉维尔·蒂博, 伊扎卡德·高特耶, 马丁内特·泽维尔, 拉肖·玛丽-安娜, 拉克罗伊·蒂莫西, 罗齐耶·巴普蒂斯特, 戈亚尔·纳曼, 哈姆布罗·埃里克, 阿扎尔·法伊萨尔, 罗德里格斯·奥雷利安, 乔利安·阿曼德, 格拉夫·埃杜瓦尔, 拉姆普尔·纪尧姆. 2023. Llama: 开放和高效的基语言模型. CoRR, abs/2302.13971.
王柏霖, 辛理查德, 刘晓东, 波洛佐夫·奥列克桑德, 理查森·马修. 2020. RAT-SQL: 文本到SQL解析器的关系感知模式编码与链接. In 第58届计算语言学协会年会论文集, ACL 2020, 线上, 2020年7月5-10日, 页7567–7578. 计算语言学协会.
王兵, 任昌宇, 杨健, 梁新年, 白嘉琪, 柴林正, 闫钊, 张倩雯, 尹迪, 孙星, 李周军. 2024. Mac-SQL: 文本到SQL的多代理协作框架. 预印本, arXiv:2312.11242.
谢天宝, 吴陈亨利, 施鹏, 钟睿琦, 舒尔克·托尔斯滕, 亚苏纳加·米奇, 吴千山, 钟明, 尹鹏程, 王思达, 钟维克, 王柏霖, 李成祖, 波伊尔·康纳, 倪安松, 韶子宇, 拉德夫·德拉戈米尔, 熊彩明, 孔凌鹏, 张睿, 史密斯·诺亚·A., 泽特勒莫伊尔·卢克, 于涛. 2022. UnifiedSKG: 利用文本到文本语言模型统一和多任务结构化知识. In 第2022届计算语言学经验方法会议论文集, EMNLP 2022,

阿联酋阿布扎比, 2022年12月7-11日, 页602–631. 计算语言学协会.

熊冠明, 包俊伟, 江红飞, 宋阳, 赵文. 2024. Interactive-T2S: 利用大型语言模型的多轮交互文本到SQL. arXiv preprint arXiv:2408.11062.
杨安, 杨宝松, 张贝辰, 惠斌元, 郑波, 于博文, 李成远, 刘大一恒, 黄飞, 魏浩然, 等. 2024a. Qwen2.5技术报告. arXiv preprint arXiv:2412.15115.
杨佳曦, 惠斌元, 杨敏, 杨健, 林俊阳, 周昌. 2024b. 从弱和强LLM合成文本到SQL数据. In 第62届计算语言学协会年会论文集(第一卷: 长论文), 页7864–7875, 泰国曼谷. 计算语言学协会.
于涛, 张睿, 杨凯, 亚苏纳加·米奇, 王东旭, 李子凡, 马杰, 丽·艾琳, 姚庆宁, 罗曼·沙内尔, 张子林, 拉德夫·德拉戈米尔. 2018. Spider: 一个大规模人工标注的复杂和跨域语义解析和文本到SQL任务数据集. In 第2018届计算语言学经验方法会议论文集, 页3911–3921, 比利时布鲁塞尔. 计算语言学协会.
张汉聪, 曹瑞升, 陈璐, 徐洪申, 余凯. 2023. ACT-SQL: 带自动生成链式思考的上下文学习文本到SQL. In 计算语言学协会发现: EMNLP 2023, 新加坡, 2023年12月6-10日, 页3501–3532. 计算语言学协会.
张宣亮, 王丁子瑞, 杜龙旭, 朱庆福, 车万祥. 2025. 大型语言模型表格推理综述. Frontiers Comput. Sci., 19(9):199348.