【LLM之NL2SQL】DAIL-SQL论文阅读笔记

研究背景

该研究旨在提供一个全面、系统的评估框架,用于评估基于大型语言模型(LLM)的Text-to-SQL技术。特别强调了不同的提示工程策略的有效性和效率,以及开源LLM的可行性。研究的重点是评估在零样本和少样本场景下的不同问题表示方式,样本选择和组织策略的效果。

研究目标

研究目标是提供Text-to-SQL提示工程的系统性和深入理解,通过实证评估先前研究中的几种策略,并探索开源LLM在不同提示工程策略下的性能表现。

相关工作

相关工作部分详细讨论了基于LLM的Text-to-SQL的各种方法,包括五种问题表示方法、两种提示组件、四种样本选择和三种样本组织策略。

五种问题表示方法

  • 基础提示 (Basic Prompt, BS P):只包括表结构和自然语言问题,问题部分以“Q:”开头,回应以“A: SELECT”开头,促使LLM生成SQL。
    在这里插入图片描述
  • 文本表示提示 (Text Representation Prompt, TR P):包括指令、表结构和问题,用自然语言表示,相较于基础提示,它在提示开始时添加了指导性的语句。
    在这里插入图片描述
  • OpenAI演示提示 (OpenAI Demonstration Prompt, OD P):在官方演示中使用,包括指令、表结构和问题,所有信息都用井号“#”注释。
    在这里插入图片描述
  • 代码表示提示 (Code Representation Prompt, CR P):以SQL语法呈现Text-to-SQL任务,直接展示“CREATE TABLE” SQL,提示中包含自然语言问题。
    在这里插入图片描述
  • Alpaca SFT提示 (Alpaca SFT Prompt, AS P):专为监督微调设计的提示,遵循指令并根据输入上下文完成任务。
    在这里插入图片描述

两种提示组件
指令 (Instruction, INS):如“编写一个SQL来回答问题”,用于描述任务。
规则含义 (Rule Implication, RI):如“仅完成sqlite SQL查询并且不需要解释”,用于引导LLM的生成过程。

四种样本选择策略
随机选择 (Random):从可用候选项中随机抽取样本。
问题相似性选择 (Question Similarity Selection, QTS S):选择与目标问题最相似的样本。
掩码问题相似性选择 (Masked Question Similarity Selection, MQS S):在计算相似性前,用掩码替换所有问题中的表名、列名和值。
目标SQL相似性选择 (Query Similarity Selection, QRS S):选择与目标SQL查询最相似的样本。

两种样本组织策略
完整信息组织 (Full-Information Organization, FIO):示例完整地提供问题和对应的SQL,帮助模型理解和学习两者之间的映射关系。(输入包括数据库结构信息、相似sql QA对)
在这里插入图片描述
仅SQL组织 (SQL-Only Organization, SOO):此策略仅使用SQL语句作为样本,不包括任何自然语言问题描述。它强调直接学习SQL语句的构造,适合在模型已经具备一定理解基础的情况下,专注于提升SQL生成的准确性。
在这里插入图片描述

方法论

问题表示 (Question Representation)

DAIL-SQL 使用Code Representation (CR P) 作为问题表示方法。这种表示方式包括数据库的完整信息,如主键和外键,这些信息对于预测如“JOIN”子句等SQL结构特别有用。CR P在预训练的编码语料库上进行训练,因此LLMs能够更好地理解并处理这种格式的提示。在这里插入图片描述

样本选择 (Example Selection)

DAIL-SQL采用了一种名为DAIL Selection的样本选择策略,这种策略不仅考虑问题的相似性,也考虑查询的相似性。这种选择方法首先在目标问题和候选样本问题中屏蔽掉特定领域的词汇,然后根据问题和查询的欧几里得距离来对候选样本进行排序,并选择那些与目标查询有高相似度的样本。

样本组织 (Example Organization)

为了保留问题与SQL查询之间的映射信息并提高令牌效率,DAIL-SQL 提出了一种新的样本组织策略,名为DAIL Organization。这种策略在保留问题-SQL映射的同时,通过移除令牌成本较高的数据库模式信息来减少样本的令牌长度。
在这里插入图片描述

实验

实验设计

实验设计包括在Spider和BIRD数据集上评估DAIL-SQL的效果,测试了不同的提示策略和LLM模型。使用执行准确性(Execution Accuracy,EX)和精确集合匹配(Exact Set Match,ESM)作为主要评估指标。

实验结论

  • DAIL-SQL在Spider和BIRD数据集上均达到了新的最佳性能,特别是在执行准确性方面,超过了现有的所有基线模型和方法。
  • 在问题表示方面,Code Representation (CR P) 表现出最好的效果,显示了结构化提示对提升模型理解和处理能力的重要性。
  • DAIL样本选择策略在精确度和效率上均优于随机选择,表明针对性的样本筛选和优化是提升性能的关键。
  • DAIL组织策略通过精确地控制信息展示,有效减少了不必要的令牌消耗,同时保持了高查询准确性。

参考资料

  • 10
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值