Text2SQL学习整理（一）综述

Q同学的nlp笔记

已于 2023-12-17 12:11:21 修改

阅读量2.1k

点赞数 2

分类专栏：自然语言处理 NLP Text-to-SQL 文章标签： Text-to-sql 人工智能 nlp 深度学习自然语言处理

于 2023-12-17 12:10:54 首次发布

本文链接：https://blog.csdn.net/u011426236/article/details/135043189

版权

自然语言处理同时被 3 个专栏收录

44 篇文章

订阅专栏

NLP

39 篇文章

订阅专栏

Text-to-SQL

15 篇文章

订阅专栏

数据库由一张或多张表格构成，表格之间的关系通过共同的列（外键）关联，人们使用数据库来方便的记录和存储信息。SQL是广泛应用的关系型数据库查询语言，但是对于普通用户而言，编写SQL语句有一定的难度。

Text2SQL是近年来NLP领域一个比较热门的研究方向，该任务历史悠久，应用和落地性很强。该任务是在已知数据库的表名、列名其从属关系（这些统称为数据库的Schema）的前提下，将人类的自然语言问句（Question）转化为对应的数据库查询SQL语句。

如下图所示，模型接收一个Question问句和一个数据库作为输入，然后将其转化为可执行的结构化查询语句（即SQL语句）进行查询，最终返回结果给用户。

早期的Text2SQL数据集诸如ATIS（Airline Travel Information Systems，航空订票系统）、GeoQuery（地理查询系统）等都是限定于某个特定领域的数据库，仅能解决特定领域的问题，泛化性能较差。而现实世界中，关系型数据库已经广泛应用于社会的各行各业。为此，越来越多的多数据库、跨表查询的Text2SQL数据集被提出，比较知名的数据集有WikiSQL、Spider、SParC和CoSQL。这些数据集的提出极大地促进了该领域的发展，目前的SOTA模型也已经实现了非常好的表现。

这几个数据集的特性如下：

数据集	提出时间、会议	特点
WikiSQL	arXiv，2017	多数据库、多表、单轮、简单语句
Spider	EMNLP，2018	多数据库、多表、单轮、复杂语句
SparC	ACL，2019	多数据库、多表、多轮、复杂语句
CoSQL	EMNLP，2019	多数据库、多表、多轮、对话形式、复杂语句