text2sql方法：NatSQL和DIN-SQL

最新推荐文章于 2025-08-26 10:53:32 发布

chencjiajy

最新推荐文章于 2025-08-26 10:53:32 发布

阅读量1.7k

点赞数 19

CC 4.0 BY-SA版权

分类专栏： text2sql 文章标签： sql 数据库

本文链接：https://blog.csdn.net/beingstrong/article/details/142618015

text2sql 专栏收录该内容

8 篇文章

订阅专栏

NatSQL

NatSQL出自2021年9月的论文《Natural SQL: Making SQL Easier to Infer from Natural Language Specifications》(github)，它是一种SQL 中间表征(SQL intermediate representation(IR))方法。

NatSQL作者认为Text2SQL的关键挑战是自然语言描述和其对应的SQL查询之间存在不匹配(mismatch)，比如论文图1的SQL语句中的GROUP BY 和JOIN ON在自然语言描述问题中没有被提到。因为SQL是被设计成高效地查询关系数据库的，不是用来表示自然语言问题的含义。对不匹配的解决办法是使用中间表征。

在这里插入图片描述

NatSQL的主要语法如论文表1，其设计原则是简化SQL的结构并使其语法与自然语言描述接近：

它只保留SQL中的SELECT， WHERE， ORDER BY 子句。去掉了GROUP BY，HAVING， FROM， JOIN ON，集合操作符(INTERSECT，UNION，EXCEPT)，子查询。
大写斜体字符为SQL和NatSQL关键词，其他大写字符表示特殊的含义：‘TABLE_NAME’， ‘COLUMN_NAME’ 为数据库而定义的, ‘NUMBER’， ‘STRING’ 表示数据类型。
除了被删除的SQL子句外，NatSQL和SQL的差别在表1中用下划线表示。NatSQL将被删除的子句的功能通过添加新的关键字以及允许where条件之前出现conjunct来实现。

在这里插入图片描述

论文图1用一个例子示意了NatSQL与其他几种中间表征方法，NatSQL与SemQL最像，论文认为它在如下方面提升了SemQL:

相比SemQL对SQL语句的兼容范围更大；
简化了带集合操作符(INTERSECT，UNION，EXCEPT)的查询语句结构；
去掉了嵌套子查询；
减少了需要预测的schema元素的个数；
使用与SQL一样的关键字和句法，比SemQL可读性更好且更易扩展。

论文后续部分更详细介绍了这些细节，本笔记主要对NatSQL作一个基本了解，就不详细记录了。

注：NatSQL的github没有包括将SQL转换成NatSQL的代码(有几个issue(1, 2)都提到了这个问题)

DIN-SQL

DIN-SQL出自2023年4月的论文《DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction》(github)，它将text2sql分解成多个子问题后，对每个子问题使用不同prompt让GPT-4生成最终的SQL语句。

论文先从Spider的训练数据集中采样了来自不同数据库的500个问题，分析使用few-shot prompt LLM生成的SQL与标准SQL不同的失败原因，并将失败原因分成如论文图1所示的6个类别。

在这里插入图片描述

鉴于用few-shot来prompt LLM进行text2sql时，LLM处理复杂查询时较容易出错。DIN-SQL将问题拆成更小的子问题。SQL查询是属于声明式的且可能的各个步骤及边界没有那么明显，所以直接使用很流行的COT方法来处理text2sql的效果没有像解决数学问题那么明显。但是写SQL查询的思考过程可以大致分为如下四步：

选择与查询相关的数据库表和数据列；
识别复杂查询的通用查询结构如group by, 嵌套语句, 多个join, set operations等；
如果有子组件可被识别的话，先定义这些子组件；
基于子问题的解决方法写出最后的查询。

基于上述思考过程，DIN-SQL将text2SQL任务分解成如论文图2所示的四个模块，并全部用prompt的方式来实现这四个模块，在prompt中使用的few-shot例子从基准数据集的训练集获得。

schema linking；
问题分类和分解；
SQL生成；
自我校正；

在这里插入图片描述

Schema Linking 模块：使用的prompt包括10个从Spider数据集随机选择的样例；基于COT模板，prompt以"Let’s think step by step"开头。对于问题中与列名有关的mention，对应的列名和表名从给定的数据库schema中被提取出来；可能的实体或者数据取值也从问题中被提取出来，示意如论文图3a，完整prompt在附录（prompt里的描述为“# Find the schema_links for generating SQL queries for each question based on the database schema and Foreign keys.”，接着是数据表schema，再就是10个例子）。

问题分类和分解模块：将每一个问题分成三个类别：容易(easy)，非嵌套复杂(non-nested complex)，嵌套复杂(nested complex).

容易类别：只涉及到单张表的查询，不需要join或嵌套；
非嵌套复杂类别：包括join但不包括子查询的查询；
嵌套复杂类别：包括join，子查询，集合操作(EXCEPT， UNION， INTERSECT)的查询

将每个问题分成不同的类别后，可以对不同的类别使用不同的prompt。论文图3b是一个示例，完整prompt在附录（prompt里的描述为“# For the given question, classify it as EASY, NON-NESTED, or NESTED based on nested queries and JOIN. if need nested queries: predict NESTED elif need JOIN and don’t need nested queries: predict NON-NESTED elif don’t need JOIN and don’t need nested queries: predict EASY”）

SQL生成模块：对第二步分类的三个类别使用不同的处理方式。

容易类别：使用few-shot prompting，每一个例子由 $Q_j, S_j, A_j>$ 组成， $Q_j$ 是问题， $S_j$ 是schema links， $A_j$ 是SQL。

在这里插入图片描述

非嵌套复杂类别：使用NatSQL作为中间表征(intermediate representation)，few-shot prompting的每一个例子由 $Q_j, S_j, I_j, A_j>$ 组成， $Q_j$ 是问题， $S_j$ 是schema links， $i_j$ 是问题和SQL的中间表征， $A_j$ 是SQL。

在这里插入图片描述

嵌套复杂类别：prompt被设计成让LLM先解决子查询，再用子查询生成最后的回答，few-shot例子格式为 $<Q_j, S_j,<Q_{j_1}, A_{j_1}, \ldots, Q_{j_k}, Q_{j_k}>, I_j, A_j>$ ， k为子问题的个数， $Q_{j_i}$ 和 $A_{j_i}$ 表示第i个子问题和第i个子SQL语句，其他的符号与前面一致。