【论文速读】| TCSR-SQL：面向表内容感知的自检索文本到SQL方法

最新推荐文章于 2024-08-16 21:30:01 发布

云起无垠

最新推荐文章于 2024-08-16 21:30:01 发布

阅读量910

点赞数 11

分类专栏：论文速读/精读文章标签： sql 数据库人工智能语言模型

本文链接：https://blog.csdn.net/m0_73736695/article/details/140494185

版权

论文速读/精读专栏收录该内容

41 篇文章 5 订阅

订阅专栏

本次分享论文：TCSR-SQL: Towards Table Content-aware Text-to-SQL with Self-retrieval

基本信息

原文作者：Wenbo Xu, Liang Yan, Peiyi Han, Haifeng Zhu, Chuanyi Liu, Shaoming Duan, Cuiyun Gao, Yingwei Liang

作者单位：哈尔滨工业大学（深圳）、鹏城实验室、广东电网公司

关键词：Text-to-SQL，表内容感知，自检索，LLM

原文链接：https://arxiv.org/pdf/2407.01183

开源代码：

https://github.com/TCSR-SQL/TCSR-SQL

论文要点

论文简介：大语言模型（LLM）在文本到SQL（Text-to-SQL）方法中取得了重要进展，但在面对真实世界场景中的表内容感知问题时，现有方法在处理问题中模糊数据内容关键词和不存在的数据库模式列名时表现不佳。

为了解决这一问题，本文提出了一种面向表内容感知的自检索文本到SQL（TCSR-SQL）方法。该方法利用LLM的上下文学习能力，从问题中提取数据内容关键词并推断可能相关的数据库模式，通过模糊搜索数据库生成初始SQL，并在多轮生成-执行-修正过程中不断优化，最终生成精确的SQL。本文还引入了一个包含1692个问题-SQL对的数据集，以验证该方法的有效性。实验结果表明，TCSR-SQL在执行准确率上相比现有方法至少提高了13.7%。

研究目的：本文的研究目的是解决当前LLM在生成对应于表内容感知的自然语言问题的SQL查询时面临的两个主要困难：一是如何识别自然语言问题中的数据内容关键词所对应的数据库模式列名；二是如何在自然语言问题中的不精确数据内容关键词的基础上，识别数据库中存储的精确内容值。通过引入自检索技术，本文提出了一个创新的方法来处理这一问题，旨在提高生成SQL查询的准确性。

研究贡献：

提出了一种新颖的TCSR-SQL方法，利用自检索技术解决了生成对应表内容感知自然语言问题的SQL查询问题。
创建了一个包含1692个问题-SQL对的新数据集，用于评估该方法的有效性。
实验结果表明，TCSR-SQL在执行准确率上相比现有最先进的方法提高了13.7%。

引言

随着大语言模型（LLM）技术的快速发展，基于LLM的文本到SQL（Text-to-SQL）方法在生成SQL查询方面取得了重要进展。然而，现有方法在处理真实世界中的表内容感知问题时，仍然面临一些挑战。例如，当问题中包含模糊的数据内容关键词和不存在的数据库模式列名时，现有方法的表现往往不尽如人意。

为了解决这些问题，本文提出了一种面向表内容感知的自检索文本到SQL（TCSR-SQL）方法。该方法利用LLM的上下文学习能力，从问题中提取数据内容关键词并推断可能相关的数据库模式，通过模糊搜索数据库生成初始SQL，并在多轮生成-执行-修正过程中不断优化，最终生成精确的SQL。

具体来说，TCSR-SQL包括三个主要模块：关键词提取与模糊检测、知识检索与对齐、SQL生成与修正。关键词提取与模糊检测模块从自然语言问题中提取数据内容关键词，并通过模糊检测技术搜索数据库中的相关内容值。知识检索与对齐模块则利用检索到的编码知识确认SQL查询中的列名和条件值。最后，SQL生成与修正模块生成初步的SQL查询，并根据执行结果进行修正，直至生成最终的精确SQL。

TCSR-SQL

如引言部分所述，现有的基于LLM的Text-to-SQL方法在根据大数据库的表内容感知自然语言问题生成SQL查询时面临两大困难：一是识别自然语言问题中的数据内容关键词所对应的数据库模式列名，二是识别数据库中存储的精确内容值。

为了解决这些问题，本文提出了TCSR-SQL方法，包含三个模块：

1. 关键词提取与模糊检测模块：从自然语言问题中提取数据内容关键词，并通过模糊检测技术搜索数据库中的相关内容值。

2. 知识检索与对齐模块：利用模糊检测模块的搜索结果确认SQL查询中的列名和条件值。

3. SQL生成与修正模块：生成初步的SQL查询，并根据执行结果进行修正，直至生成最终的精确SQL。

研究评估

实验设置：为了评估TCSR-SQL方法的有效性，本文创建了一个包含1692个问题-SQL对的基准数据集（TCD）。该数据集从多个Spider变体数据集和实际数据库中提取，涵盖了真实世界中的表内容感知问题。评估指标包括执行准确率（EX）和精确匹配准确率（EM），前者比较预测SQL查询和金标准SQL查询的执行输出，后者比较预测SQL查询和金标准SQL查询的各个部分。实验使用GPT-3.5-turbo模型，并采用Dmeta-embedding算法进行相似度计算。

整体结果：实验结果表明，TCSR-SQL在执行准确率（EX）和精确匹配准确率（EM）方面均显著优于现有最先进的方法。具体而言，TCSR-SQL在EX和EM上分别达到了75.0%和48.2%，相比最佳现有方法至少提高了13.7%。这得益于关键词提取与模糊检测、知识检索与对齐、SQL生成与修正三个模块的协同工作。通过多轮生成-执行-修正过程，TCSR-SQL能够更准确地生成对应表内容感知的SQL查询，有效应对真实世界中的复杂查询任务。

消融实验：通过消融实验评估了TCSR-SQL各模块对整体性能的影响。结果显示，去除关键词提取与模糊检测模块后，执行准确率（EX）下降了7.6%；去除知识检索与对齐模块后，EX下降了9.3%；去除SQL修正模块后，EX下降了6.4%。这些结果表明，每个模块对提高SQL生成准确性都起到了重要作用。特别是知识检索与对齐模块，通过整合编码知识，显著提升了SQL查询条件的精确性，而SQL修正模块通过执行反馈进一步优化了最终的SQL查询。

案例研究：为了深入了解TCSR-SQL的工作原理，研究者进行了案例研究。研究表明，现有方法在生成SQL查询时常常无法正确识别数据内容关键词和条件值，导致查询结果为空或错误。相比之下，TCSR-SQL通过关键词提取与模糊检测模块有效地提取问题中的数据内容关键词，并利用知识检索与对齐模块确认数据库中的精确存储值。最终，SQL生成与修正模块生成准确的SQL查询，避免了常见错误。例如，在处理一个关于GDP增长率的问题时，TCSR-SQL成功生成了正确的SQL查询，而其他方法均未能正确执行。

论文结论

本文提出的TCSR-SQL方法，通过引入自检索技术，显著提升了生成对应表内容感知自然语言问题的SQL查询的准确性。实验结果表明，TCSR-SQL在执行准确率和精确匹配准确率方面均显著优于现有最先进的方法。具体来说，TCSR-SQL利用关键词提取与模糊检测、知识检索与对齐、SQL生成与修正三个模块，解决了在大数据库中生成准确SQL查询的关键挑战。通过创建一个包含1692个问题-SQL对的新数据集，研究者验证了该方法的有效性，证明了其在处理复杂查询任务中的优越性能。总之，TCSR-SQL为Text-to-SQL领域提供了一个创新且高效的解决方案。

原作者：论文解读智能体

校对：小椰风

云起无垠

关注

11
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
【论文速读】| TCSR-SQL：面向表内容感知的自检索文本到SQL方法

本文提出了一种面向表内容感知的自检索文本到SQL（TCSR-SQL）方法。该方法利用LLM的上下文学习能力，从问题中提取数据内容关键词并推断可能相关的数据库模式，通过模糊搜索数据库生成初始SQL，并在多轮生成-执行-修正过程中不断优化，最终生成精确的SQL。
复制链接

扫一扫