Text-to-SQL小白入门（十）RLHF在Text2SQL领域的探索实践

最新推荐文章于 2025-03-11 16:22:07 发布

junewgl

最新推荐文章于 2025-03-11 16:22:07 发布

阅读量3.7k

点赞数 18

分类专栏： Text-to-SQL 文章标签： LLM code llama 开源 RLHF Text2SQL NL2SQL SQL

本文链接：https://blog.csdn.net/qq_40755094/article/details/135230298

版权

本文内容主要基于以下开源项目探索实践，

Awesome-Text2SQL:GitHub - eosphoros-ai/Awesome-Text2SQL: Curated tutorials and resources for Large Language Models, Text2SQL, Text2DSL、Text2API、Text2Vis and more.

DB-GPT-Hub：GitHub - eosphoros-ai/DB-GPT-Hub: A repository that contains models, datasets, and fine-tuning techniques for DB-GPT, with the purpose of enhancing model performance in Text-to-SQL

DB-GPT：GitHub - eosphoros-ai/DB-GPT: Revolutionizing Database Interactions with Private LLM Technology

DeepSpeedExamples:GitHub - microsoft/DeepSpeedExamples: Example models using DeepSpeed

开源不易，希望大家给个star支持一下，感谢！

Text2SQL简介

本章主要对Text2SQL的基本定义、使用的开源数据集和评测指标做了介绍，同时也介绍了一些实践项目，供大家参考。

定义

Text-to-SQL（简写为Text2SQL），顾名思义就是把文本转化为SQL语言，更学术一点的定义是：把数据库领域下的自然语言（Natural Language，简写为NL）问题，转化为在关系型数据库中可以执行的结构化查询语言（Structured Query Language，简写为SQL），因此Text2SQL也可以被简写为NL2SQL。

举个例子比较直观：

输入：自然语言问题。

查询表t_user的所有信息，结果按id降序排序，只保留前10个数据

输出：SQL语句。

SELECT * FROM t_user ORDER BY id DESC LIMIT 10

实验：如图1所示，在DB-GPT项目中，直接使用原生对话，使用Proxy LLM（GPT-3.5）提问上述问题，大模型可以准确给出SQL答案，这也是因为LLM本身语言理解能力强大，同时提问的自然语言问题比较easy。

图1 DB-GPT项目原生对话示意图

数据集

公开的Text2SQL数据集比较多，这里仅介绍目前使用较多的几个数据集：

WikiSQL [paper] [code] [dataset]

- 2017年9月，Salesforce提出的一个大型的Text-to-SQL数据集，数据来源于Wikipedia，属于单领域，包含了80654个自然语言问题，77840个SQL语句，SQL语句形式比较简单，不包含排序、分组、子查询等复杂操作。

Spider [paper] [code] [dataset]

- 2018年9月，耶鲁大学提出的多数据库、多表、单轮查询的Text-to-SQL数据集，也是业界公认难度最大的大规模跨领域评测榜单，包含了10181个自然语言问题，5693个SQL语句，涉及138个不同领域的200多个数据库，难易程度分为：简单、中等、困难、特别困难。

CoSQL [paper] [code] [dataset]

- 2019/09, 耶鲁大学和Salesforce Research提出了一种跨域数据库CoSQL，它由30k+轮次和10k+带注释的SQL查询组成，这些查询是从Wizard-of-Oz (WOZ)集合中获得的，该集合包含3k个对话，查询跨越 138个域的200个复杂数据库。

CHASE [paper] [code] [dataset]

- 2021年8月，西安交通大学和微软等提出了首个跨领域、多轮Text-to-SQL中文数据集，包含了5459个多轮问题组成的列表，17940个<query, SQL>二元组。

BIRD-SQL [paper] [code] [dataset]

最低0.47元/天解锁文章