[Text2SQL] ROUTE: 通过稳健的多任务微调与协作来完成Text2SQL

最新推荐文章于 2025-05-10 17:17:50 发布

江湖人称麻花滕

最新推荐文章于 2025-05-10 17:17:50 发布

阅读量991

点赞数 13

文章标签： java 数据库服务器人工智能深度学习 langchain 学习

本文链接：https://blog.csdn.net/m0_59235699/article/details/145283352

版权

《ROUTE: ROBUST MULTITASK TUNING AND COLLABORATION FOR TEXT-TO-SQL》，通过构建多任务微调+协作的方式来完成对Text2SQL的优化。下面我们来看看它的思路。

概念与问题定义

Text2SQL任务的目标是将自然语言问题转换为SQL查询，以便从数据库中检索相关信息。为了更全面地提升模型在Text2SQL任务中的表现，ROUTE不仅考虑了标准的Text2SQL任务，还引入了三个额外的SQL相关任务：模式链接（Schema Linking, SL）、噪声校正（Noise Correction, NC）和续写（Continuation Writing, CW）。

问题定义

给定一个Text2SQL数据集，其中：

是一个SQL数据库，包含多个表和列。
是一个自然语言问题，可能带有问题提示。
是对应的标准SQL查询。

Text2SQL任务的目标是利用大语言模型（LLM）生成一个SQL查询，使得其执行结果与标准SQL查询的执行结果一致。具体来说，模型需要根据数据库和问题生成SQL查询，并通过SQL执行器验证其正确性。

任务定义

除了标准的Text2SQL任务外，本文还定义了以下SQL相关任务：

Text-to-SQL (TS)：根据数据库和问题生成SQL查询。使用来表示根据数据库和问题构建提示。
Schema Linking (SL)：识别与问题相关的数据库表和列，减少提示中的冗余信息。使用来表示根据数据库和问题构建提示。
Noise Correction (NC)：判断生成的SQL查询是否能正确回答问题，如果不能，则提供修正后的SQL查询。使用，表示根据数据库、问题和生成的SQL查询构建提示。
Continuation Writing (CW)：给定一个不完整的SQL查询，继续编写成一个完整的SQL查询。使用表示根据数据库、问题和不完整的SQL查询构建提示。

任务之间的关系

TS和NC：这两个任务直接与SQL生成相关，能够直接提升SQL查询的质量。
SL：通过简化数据库信息，减少提示中的冗余内容，从而提升模型的表现。
CW：通过续写不完整的SQL查询，间接提升SQL生成的质量。

多任务学习的动机

通过多任务学习，模型不仅能够提升SQL生成的能力，还能保留其他重要的SQL相关任务（如模式链接和噪声校正）的能力。此外，多任务协作提示策略能够将复杂的Text2SQL任务分解为多个简单的子任务，从而减少SQL生成过程中的错误。

多任务监督微调（MSFT）

多任务监督微调（Multitask Supervised Fine-Tuning, MSFT）是ROUTE方法的核心组成部分之一。通过多任务学习，模型不仅能够提升SQL生成的能力，还能保留其他重要的SQL相关任务（如模式链接和噪声校正）的能力。

噪声对应过滤

现有的Text2SQL数据集中存在语义不一致的噪声对，即自然语言问题与标准SQL查询之间的对应关系不准确。这种噪声会导致模型在训练过程中学习到错误的模式，从而影响其性能。为了减少噪声对模型训练的影响，首先对数据集进行噪声过滤。

噪声判别器的构建：选择了一个Llama3-8B模型作为噪声判别器，专门用于检测数据集中的噪声。对于每个Text2SQL对，构建一个正例和一个负例，其中是标准SQL查询，是生成的错误SQL查询。正例的响应表示“SQL查询的执行结果能够正确回答问题”，而负例的响应表示“SQL查询的执行结果不能正确回答问题，正确的SQL查询应该是”。
负例的生成：使用开源LLMs（如Qwen2-7B和Llama3-8B）以零样本方式生成所有问题的SQL响应，并将生成的SQL查询与标准SQL查询的执行结果进行比较。如果执行结果不一致，则将生成的SQL查询视为负例。为了增加负例的多样性，还人工引入了五种类型的错误，包括模式链接错误、嵌套错误、GROUP BY错误、JOIN错误和符号错误。
噪声过滤：通过微调Llama3-8B模型，对数据集进行噪声过滤，得到净化后的数据集。

数据合成

为了进行多任务监督微调，从净化后的数据集中合成了多个任务的训练数据。

Text2SQL任务（TS）：使用函数构建提示，标准SQL查询作为响应。训练数据表示为，其中是数据量。
模式链接任务（SL）：使用标准SQL查询提取相关的数据库表和列作为响应。训练数据表示为，其中是解析函数，用于从SQL查询中提取表和列。
噪声校正任务（NC）：构建正例和负例，正例为标准SQL查询，负例为生成的错误SQL查询。训练数据表示为，其中和分别是正例和负例的数量。
续写任务（CW）：通过随机截断标准SQL查询，生成不完整的SQL查询作为输入，标准SQL查询作为响应。训练数据表示为，其中是数据量。

最终，多任务监督微调的数据集为。

多任务微调

在获得多任务数据集后，对LLM进行监督微调，最大化以下对数似然目标函数：

其中，是输入提示，是目标响应，是响应序列的长度。

通过多任务监督微调，模型能够同时学习多个SQL相关任务，从而提升其在Text2SQL任务中的综合表现。

多任务协作提示（MCP）

多任务协作提示（Multitask Collaboration Prompting, MCP）是ROUTE方法的另一个核心组成部分，旨在通过分解复杂的Text2SQL任务为多个子任务，减少SQL生成过程中的幻觉现象。MCP策略充分利用了模型在多任务监督微调（MSFT）阶段学到的多种SQL相关能力，通过协作提示的方式逐步生成准确的SQL查询。本节将详细介绍MCP的实现细节，包括模式链接、SQL生成与噪声校正、以及续写任务。

模式链接（Schema Linking）

模式链接是MCP策略的第一步，旨在简化数据库信息，减少提示中的冗余内容，从而提升模型的表现。具体步骤如下：

简化数据库：给定数据库和用户问题，首先利用LLM的模式链接能力识别与问题相关的数据库表和列。通过伪SQL查询进一步简化数据库。伪SQL查询是指使用完整的模式信息生成的中间SQL查询，即。最终简化后的数据库可以表示为：其中，是解析函数，用于从SQL查询中提取表和列，表示合并操作。
减少冗余信息：通过模式链接，模型能够识别出与问题相关的表和列，从而减少提示中的冗余信息，降低SQL生成的复杂度。

SQL生成与噪声校正

在简化后的数据库上，模型生成中间SQL查询，并通过噪声校正任务进一步优化生成的SQL查询。具体步骤如下：

SQL生成：使用简化后的数据库和用户问题，生成中间SQL查询，即：
噪声校正：利用LLM检查生成的SQL查询是否能正确回答问题。具体来说，结合SQL执行器的异常信息，构建提示，并生成修正后的SQL查询。如果LLM判断不能正确回答问题，则使用修正后的SQL查询替换，并通过SQL执行器验证其正确性。

续写（Continuation Writing）

对于复杂的SQL查询，本文引入续写任务，通过LLM继续编写不完整的SQL查询，进一步优化生成的SQL。具体步骤如下：

SQL查询的难度评估：根据SQL查询的复杂度，将其分为三个等级：简单（涉及一个表）、中等（涉及两个表）和复杂（涉及多个表）。定义一个难度评估函数，其中1、2、3分别对应简单、中等和复杂。
续写任务：对于复杂的SQL查询（），通过续写任务进一步优化。具体来说，从“SELECT”关键字开始，截断SQL查询，生成不完整的SQL查询，并利用LLM继续编写成完整的SQL查询。如果续写后的SQL查询能够正确执行，则替换原始的SQL查询。

MCP的整体流程

MCP策略的整体流程如下：

模式链接：简化数据库，识别与问题相关的表和列。
SQL生成：在简化后的数据库上生成中间SQL查询。
噪声校正：检查并修正生成的SQL查询，确保其能够正确回答问题。
续写：对于复杂的SQL查询，通过续写任务进一步优化。

通过多任务协作提示（MCP），模型能够逐步生成准确的SQL查询，减少SQL生成过程中的错误和幻觉现象。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述