摘要
本文主要介绍了Text-to-SQL研究的定义、意义、研究方法以及未来展望,主要是对Text-to-SQL领域进行一个初步的认识和了解,适合初学者入门了解。
1 引言
Awesome-Text2SQL这个项目主要收集了针对大型语言模型和Text2SQL等的精选教程和资源,希望能够共同学习、共同推动Text2SQL领域进步!
作为Text-to-SQL领域的小白,学习该领域的最好方式就是看最新的综述文章,一般而言,综述文章都是由该领域的多位大牛综合上百篇文章形成的总结、沉淀和思考。通过学习综述文章,我们可以快速对该领域有一个全局的认识,站得高看得远还是很有道理的。同时学习综述文章,我们可以站在巨人的肩膀上,了解该领域的最新发展,避免出现闭门造车的情况。
那么今天我主要以2022年的2篇综述文章为主,简单介绍一下该研究领域。
- 1.第一篇综述文章标题为《A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions》,意思就是Text-to-SQL解析的概念、方法和未来方向。
-
- 发表期刊/会议:IEEE Transactions on Knowledge and Data Engineering,简称为TKDE,属于CCF-A类期刊,属于数据库/数据挖掘/内容检索上的顶刊!(如果不知道期刊会议等级可以通过中国计算机学会推荐国际学术会议和期刊目录(2022)这个链接查询)。
- 发表时间:2022年
- 论文作者:Bowen Qin, Binyuan Hui, Lihan Wang, Min Yang, Jinyang Li, Binhua Li, Ruiying Geng, Rongyu Cao, Jian, Sun, Luo Si, Fei Huang, Yongbin Li(可以看出团队阵容还是很强大的)
- 作者单位:中科院、阿里巴巴达摩院、香港大学
- 文章链接:https://arxiv.org/pdf/2208.13629.pdf
- 2.第二篇综述文章标题是《Recent Advances in Text-to-SQL: A Survey of What We Have and What We Expect》,意思就是Text-to-SQL领域的最新进展:关于我们所拥有该领域的知识以及和所期盼的发展方向的综述。
-
- 发表期刊/会议:International Conference on Computational Linguistics,简称COLOING,属于CCF-B类会议,属于人工智能领域/NLP领域有重要影响力的会议。(一般来说,ACL、NAACL、EMNLP、COLING被称为是NLP领域的四大顶会。)
- 发表时间:2022年
- 论文作者:Naihao Deng、Yulong Chen、 Yue Zhang
- 作者单位:密歇根大学(美国)、西湖大学
- 文章链接:https://arxiv.org/pdf/2208.10099v1.pdf
2 Text-to-SQL是什么?
了解一个研究领域,首先需要搞明白任务是什么?确定任务的输入输出边界是什么?也就是了解what?
Text-to-SQL(简写为T2S,或者是Text2SQL),顾名思义就是把文本转化为SQL语言,更学术一点的定义是:把数据库领域下的自然语言(Natural Language,简写为NL)问题,转化为在关系型数据库中可以执行的结构化查询语言(Structured Query Language,简写为SQL),因此T2S也可以被简写为NL2SQL。
举个例子比较直观,T2S任务给定一个表格Table,输入就是一段自然语言文本,输出就是SQL语句,如图1(Sun, Tang et al., 2018)所示:用户想要查询 “由安娜最初演唱的歌曲总数是多少?”,经过T2S任务解析后,输出SQL语句,执行模块再在数据库中执行SQL,返回执行结果:1。
- 输入:自然语言问题:“what 's the total number of songs originally performed by anna nalick?”
- 输出:SQL语句:“SELECT COUNT Song choice WHERE Original artist = anna christine nalick”
图1 Text-to-SQL例子
再举个中文场景的例子,比如给定如下表1,用户查询问题:“新浪网的周涨跌幅是多少?”,输出SQL语句“SELECT 周涨跌幅 FROM 表1 WHERE 名称 =