在RAG-Text2SQL系统中平衡内容大小

大型语言模型(LLMs)作为一种有前景的解决方案,能够将自然语言查询转换为SQL命令,从而实现无缝的数据库交互。然而,这些文本到SQL(Text2SQL)系统面临着固有的局限性、幻觉生成、过时知识和不可追踪推理等问题。为了解决这些挑战,将检索增强生成(RAG)与Text2SQL模型集成的方法逐渐受到关注。RAG作为一个检索机制,提供必要的上下文信息,如表结构和元数据,以增强查询生成过程。尽管潜力巨大,RAG + Text2SQL系统对检索文档的质量和大小非常敏感。虽然更丰富的文档内容可以提高结构相关性和检索准确性,但同时也引入了噪声,增加了幻觉生成的风险,并随着Text2SQL模型提示大小的增加而降低了查询保真度。本研究探讨了文档大小与质量之间的微妙权衡,旨在找到优化系统性能的平衡点。确定了性能下降的关键阈值,并提出了应对这些挑战的实际策略。此外,我们还探讨了Text2SQL模型中的幻觉现象,强调精心策划的文档呈现方式在减少错误中的关键作用。我们的研究结果为增强RAG + Text2SQL系统的鲁棒性提供了路线图,为实际应用提供了实用见解。

关系数据库中数据的快速增长使得访问和分析这些信息变得越来越具有挑战性,特别是对于缺乏编写SQL查询专业知识的非技术用户而言。将自然语言查询转换为SQL命令是实现与复杂数据库无缝交互的关键。Text-to-SQL模型通过利用自然语言处理技术,将自然语言转换为可执行的SQL查询,从而实现了数据库访问的民主化(Shi等人 [2024])。 大型语言模型(LLMs)支撑了许多Text2SQL系统,展示了理解与生成自然语言的出色能力。然而,它们也存在一些局限性,例如幻觉生成、过时的知识和不透明的推理过程(Gao等人 [2024])。为了克服这些挑战,检索增强生成(RAG)作为一种变革性的方法应运而生(Lewis等人 [2020];Izacard等人 [2022];Guu等人 [2020];Borgeaud等人 [2022])。通过从数据库中整合外部知识,RAG提高了LLMs在知识密集型任务中的准确性和可靠性。它使知识能够持续更新,并集成了领域特定的信息,将LLMs的内在能力与动态外部数据存储库相结合(Gao等人 [2024];Wang等人 [2024])。从RAG系统检索到的信息作为LLM或Text2SQL模型的输入,形成了关键的提示组件。检索到的信息被纳入提供给LLM或Text2SQL模型的提示中,在其生成准确SQL查询的能力中起着至关重要的作用。检索信息的质量和数量不仅决定了提示的大小,而且对模型的整体性能产生了重大影响。因此,优化从RAG系统中捕获的内容及其多少对于实现均衡且高效的查询生成过程至关重要。在更广泛的人工智能领域中,提示工程已成为一项变革性的学科,通过定制输入提示来最大化LLMs的有效性和可靠性(Sahoo等人 [2024];Chang等人 [2024])。 尽管RAG有许多优势,但它也带来了自身的挑战。“垃圾进,垃圾出”(GIGO)原则在检索增强生成(RAG)系统中同样高度适用,就像在其他机器学习和数据处理环境中一样。过多或无关的信息可能会降低LLM模型的性能,向提示中引入噪声,并增加幻觉生成的风险(Liu等人 [2023];Maynez等人 [2020])。当提供不正确或不完整的信息时,LLMs可能会产生不准确的响应或无法理解输入查询(Bian等人 [2023];Adlakha等人 [2024])。这使得检索内容的质量成为影响RAG启用系统整体性能的关键因素。近年来,随着LLMs在Text2SQL任务中的应用激增,其性能提升、适应性和未来改进潜力得到了推动(Shi等人 [2024])。尽管RAG + Text2SQL系统本身不足以解决这一问题,在现实世界中,我们可能需要像TAG(Biswal等人 [2024])等强大的系统补充以及其他许多补充,但我们仍将范围限制在RAG + Text2SQL上。RAG + Text2SQL系统的实际部署通常需要仔细优化用于检索的文档内容。较大的文档可能会提高检索精度,但同时也会增加提示变长和噪音带来的幻觉SQL查询风险。在这两者之间取得平衡对于实现可靠的系统性能至关重要。本文聚焦于以下核心挑战:

  1. RAG + Text2SQL系统的性能对用于检索的文档质量和大小高度敏感。
  2. 更大和更详细的文档可以提高RAG的准确性,但会加剧Text2SQL模型中的幻觉问题。
    改进RAG + Text2SQL系统在软件行业的日常任务中提高效率方面具有显著潜力。
    1.1 为什么这个问题重要
    在商业智能、自动化报告和企业数据的自然语言接口等实际应用中,即使是幻觉生成的SQL查询也可能导致错误的洞察和重大的决策失误。因此,确保文档大小和质量之间的平衡对于维护查询结果的可靠性至关重要。增强RAG + Text2SQL系统在软件行业的日常任务中提高效率方面具有显著潜力。这反过来将有助于开发更好的软件解决方案,最终改善我们日常生活中的各个方面。
    1.2 论文目标
    本研究探讨了RAG + Text2SQL系统中文档大小和质量之间的权衡。具体来说,我们:
  3. 分析不同文档内容如何影响检索准确性、幻觉率和系统可靠性。
  4. 探讨在不同文档配置下RAG系统和RAG + Text2SQL系统之间的性能差异。
  5. 提出一个框架,设计简洁、高质量的文档以实现最佳平衡,最小化幻觉同时最大化检索效果。
    通过使用包含不同程度和数量信息的多个文档集进行广泛的实验,我们为优化RAG + Text2SQL框架的实际应用提供了可行的见解。
    2 相关工作
    大型语言模型(LLMs)领域的进展速度前所未有,架构和方法学方面的诸多创新提升了其性能。其中一种方法是检索增强生成(RAG),它通过整合领域特定的外部检索机制显著提高了LLMs的实用性。
    2.1 文本到SQL模型
    文本到SQL模型随着时间的推移有了显著发展,重点在于弥合自然语言理解和数据库查询之间的差距。(Shi等人 [2024])的调查探讨了使用LLMs进行文本到SQL任务的重要性,特别是在数据量不断增长的情况下提高查询效率的需求。由于关系数据库依赖SQL进行交互,普及非专家用户的访问需求推动了文本到SQL技术的进步。一项著名的工作,Seq2SQL(Zhong等人 [2017]),引入了一种深度神经网络架构,将自然语言问题翻译成SQL查询,解决了无SQL专业知识用户的需求。
    2.2 文档特性对RAG系统的影响
    最近的研究探讨了文档特性(包括结构和内容长度)如何影响RAG系统的性能。(关于构建技术文档的RAG系统 [2024])提供了有关块大小、嵌入可靠性、句子与段落级别的检索、关键词位置和上下文顺序等因素的见解。这些发现强调了根据文档属性调整检索策略的重要性,特别是在技术领域。类似地,(Zhao等人 [2024a])研究了检索文档特性和提示策略对RAG系统性能的影响,强调文档质量、大小和内容类型如何显著影响响应的准确性和可靠性。该研究进一步探索了文档选择方法和提示策略,突出了其在RAG + LLM框架中的作用。
    2.3 提示设计及其对LLM性能的影响
    提示工程已成为决定LLM性能的关键因素。(He等人 [2024])的研究揭示了提示格式对基于GPT的模型(Brown等人 [2020])的重大影响,没有单一格式被证明普遍优越。这凸显了多样化提示格式的重要性,以增强未来LLM测试和性能优化。此外,(Kojima等人 [2023])引入了Zero-shot-CoT,这是一种零样本提示,旨在激发LLM中的链式思维推理,与需要手工制作示例的先前少量样本方法形成对比。(Yugeswardeenoo等人 [2024])的研究探讨了问题分析提示,展示了其在提高数学和常识查询等多样推理任务中的准确性潜力。这些研究强调了提示策略在实现稳健和准确模型输出中的关键作用,特别是在文档内容直接影响提示设计的情况下,如RAG + Text2SQL系统。
    2.4 LLM和RAG系统中的幻觉
    幻觉仍然是生成式AI和LLMs中的持续挑战。多项研究(Peng等人 [2023];Dziri等人 [2021];Feldman等人 [2023];Varshney等人 [2023];Dhuliawala等人 [2023])调查了幻觉现象,分析了其来源并提出了缓解策略。(Jesson等人 [2024])做出了显著贡献,提出了一种技术,用于估计情境学习框架内条件生成模型的幻觉率。这些发现对我们研究至关重要,因为文档质量和检索信息显著影响RAG + Text2SQL系统中的幻觉率。 基于现有的研究成果,我们的研究专注于RAG + Text2SQL系统中文档大小和质量之间的相互作用。通过分析这些因素如何影响检索准确性、提示设计和幻觉率,我们旨在为优化这些系统在实际应用中提供可行的见解。
    3 问题定义
    当与文本到SQL(Text2SQL)模型集成时,检索增强生成(RAG)系统的有效性很大程度上取决于用于检索的文档的质量和大小。这种依赖性源于这些文档在提供准确SQL查询生成所需的模式和上下文中的作用。 我们的研究使用SPIDER数据集(Yu等人 [2019])的一个子集,这是广泛认可的Text2SQL系统基准,作为实验的基础。通过从SPIDER数据集中采样各种SQL表模式,我们构建了多个文档表示,以系统地评估它们对组合RAG + Text2SQL系统的影响。 我们研究中的每个文档对应于单个表,并包括:
  6. 表的模式,包括列名以及列之间的其他关系。
  7. 可能有助于RAG系统理解和检索准确性的额外元数据。
    为了探讨文档内容的影响,我们基于SPIDER数据集创建了多组数据集迭代。这些迭代在文档大小、详细程度和质量上有所不同,使我们能够分析它们对RAG系统和RAG + Text2SQL系统作为统一框架的影响。本研究的主要目标是确定能够平衡两个竞争目标的最佳文档结构: 1. 最小化由嘈杂或过多的文档内容引起的Text2SQL输出中的幻觉风险。 2. 通过确保充分和精确的文档信息,最大化SQL查询生成中的检索相关性和准确性。
    通过在这些不同的文档表示上进行受控实验,我们旨在为RAG + Text2SQL系统的文档设计策略提供可行的见解。这项研究强调了文档质量和内容大小如何直接影响系统性能,为在实际应用中实施此类框架铺平了道路。
    4 实验设置
    在本节中,我们将介绍实验设置的关键组成部分。我们首先介绍用于评估RAG+Text2SQL系统性能的数据集。接下来,我们概述为RAG系统量身定制的文档创建过程,随后详细讨论RAG系统的体系结构及其配置参数。最后,我们描述了Text2SQL模型,这是一个基于先进LLM的系统,详细阐述了其提示设计和实现策略。
    4.1 数据集简介:Spider
    SPIDER数据集,由“Spider: A Large-Scale Human-Labeled Data Set for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task”(Yu等人 [2019])引入,是一个基准,旨在评估模型在跨多种领域将自然语言查询转换为SQL查询的能力。它包括10,181个问题和5,693个独特的复杂SQL查询,涵盖200个带有多个表的数据库,代表138个不同的领域。数据集的复杂性和多样性使其成为推进语义解析和文本到SQL系统研究的宝贵资源。数据集具有高度的通用性,涵盖了多个层次的SQL查询,包括所有主要的SQL查询组件。它包含涉及多个列和聚合的SELECT子句,以及WHERE、GROUP BY、HAVING、ORDER BY和LIMIT子句。高级操作如JOIN、INTERSECT、EXCEPT、UNION、NOT IN、OR、AND、EXISTS和LIKE都有很好的代表性。此外,数据集还包括嵌套查询和子查询结构,反映了真实世界的查询场景。为了确保全面覆盖,注释者精心确保数据库中的每个表至少在一个查询中被引用(Yu等人 [2019])。 数据集被划分为训练、验证和测试子集,以便进行系统评估。我们在实验中使用了数据集的一个精选部分,重点关注15个领域。这个子集包括719个查询,包含54个表,使我们能够在保持实验规模可控的同时进行特定领域的分析。表1展示了数据集中涵盖的15个不同领域的概述以及相应的SQL查询。数据集包括719个SQL查询,突显了其在各种数据库模式上的多样性和全面覆盖。
    4.2 文档变化
    RAG系统通过分析用户查询与可用文档之间的相似性来检索信息。基于这种相似性,系统识别并选择最相关的前k个文档,连同各自的相似性分数一起提供,确保检索到的内容与用户的查询紧密对齐。在我们的实验中,每个文档代表一个单独的SQL表,封装了关于表模式的信息,在某些情况下还包括其他元数据,例如文本描述或示例插入查询。这些文档是通过对SPIDER数据集中的表模式进行采样生成的,基于模式表示的变化添加上下文细节,如前一节所述。 当用户提供自然语言查询时,它首先通过RAG系统,该系统从集合中检索出最相关的前三个文档。这些文档和RAG预计代表回答查询最相关的表。检索到的文档与原始用户查询和特定的Text2SQL指令结合在一起,形成提示。这个提示提供给Text2SQL模型,该模型处理输入并生成所需的SQL查询。这种设置确保系统充分利用了RAG的检索能力和Text2SQL模型的推理能力。通过评估不同文档表示下的性能,
    [^0] [^0]: 所有实验代码可以在以下链接获取: https://github.com/prakhargurawa/ Balancing-Content-Size-In-RAG-Text2SQL-System. 数据集可通过以下链接下载: https://yale-lily.github.io/spider. 表1:在基准测试中选定的不同领域的SQL查询分布
领域SQL查询数量
农场40
电影排名68
选举40
摔跤手20
婚礼30
游泳30
攀岩40
设备40
贷款_180
电影_198
铁路21
咖啡店18
游戏_186
保险政策48
产品目录42

我们旨在了解文档质量和内容大小的变化如何影响检索准确性、提示构造和最终的SQL查询生成。 为了探讨文档质量和内容对RAG + Text2SQL性能的影响,我们创建了几种表格模式文档的变体:

  1. Spider-Data-1:仅包含SPIDER数据集中原始的CREATE TABLE语句。
  2. Spider-Data-2:在整个表中采用一致的CREATE TABLE语句表示形式,以确保一致性。
  3. Spider-Data-3:包含修改后的CREATE TABLE语句和一个示例INSERT查询,以说明数据用法。
  4. Spider-Data-4:在Spider-Data-3的基础上扩展,包含两个示例INSERT查询,以提供更丰富的上下文。
  5. Spider-Data-5:将修改后的CREATE TABLE语句与表及其列的文本描述相结合。
  6. Spider-Data-6:在Spider-Data-5的基础上添加一个示例INSERT查询。
  7. Spider-Data-7:在Spider-Data-6的基础上扩展,包含两个示例INSERT查询,以提供更多细节。
    4.2.1 文档质量与大小的权衡
    不同文档集之间文档内容的变化反映了文档大小和质量之间的权衡,这是RAG + Text2SQL管道中的一个关键因素。这将在以下方面影响整个系统:
  8. 对检索的影响:更大的文档,包含更多的上下文和描述性信息,通过提供与用户查询更相关的匹配项来增强检索步骤。例如,添加文本描述或示例数据插入为RAG系统提供了更丰富的信号来确定相关性。
  9. 对提示大小的影响:检索到的文档与用户查询和预定义的指令相结合,格式化为Text2SQL模型的提示。大文档会增加提示大小,虽然这对检索有益,但会增加Text2SQL模型的负担。这可能导致令牌使用的低效和幻觉风险增加,即模型基于错误或虚构的输入解释生成查询。
  10. 权衡平衡:本研究假设平衡文档大小和质量对于优化整个系统性能至关重要。文档应包含足够的信息以支持准确的检索,而不应过度负担Text2SQL模型的处理能力。
    4.3 RAG系统的描述
    检索增强生成(RAG)引入了一个信息检索过程,通过从外部数据存储中提取相关信息来增强生成模型的准确性和鲁棒性。这种集成允许 RAG系统动态地融入最新的和领域特定的知识,显著提高其性能,尤其是在知识密集型任务中(Zhao等人 [2024b])。 在RAG系统中,检索机制嵌入到模型管道中。它根据用户查询从外部知识库或文档语料库中提取上下文相关的信息。检索到的内容然后与原始查询结合并传递给生成模型,该模型使用这些丰富的内容来生成输出。这种方法代表了生成式AI的转型转变,创建了更加透明(“玻璃盒”)的模型,在需要精确信息的领域中表现出色。 RAG系统还减轻了频繁重新训练大型模型的需求,减少了计算和财务成本。这种适应性使得RAG特别适用于企业应用,在这些应用中保持最新模型至关重要。 我们设计的RAG系统使用了以下组件:
  11. 框架:我们使用了LangChain(Chase [2022]),这是一个简化集成语言模型的高级应用程序开发的强大框架。其模块化设计允许无缝集成RAG组件。
  12. 嵌入:RAG系统中的语义搜索依赖于向量嵌入。在我们的实现中,我们使用了all-MiniLM-L12-v2,这是一种sentence-transformer模型,能够将文本数据转换为固定大小的嵌入。该模型非常适合聚类和语义搜索任务,并在开源嵌入模型中表现出优越性能(Aperdannier等人 [2024])。
  13. 向量存储:高效存储和查询嵌入对于RAG管道至关重要。我们采用了FAISS(Facebook AI Similarity Search)(Douze等人 [2024]),这是一个针对快速轻量级相似性搜索进行了优化的开源库。FAISS在查询处理期间以高精度检索相关文档片段。
  14. k值(检索文档数量):RAG系统中的k值指定从外部知识源中检索给定查询的文档数量。这些文档为生成模型提供了生成响应的上下文。在我们的设置中,我们设定了。这个选择与我们的SQL查询生成任务相符,因为单个SQL查询通常涉及不超过三个表,每个表在我们的系统中都表示为一个文档。选择适当的k值至关重要,因为它直接影响系统性能。较高的k值提供更全面的上下文,可能提高响应质量。然而,它也可能引入噪声或无关信息,增加处理复杂性和更高的幻觉或错误输出风险。相反,较小的k值可能提供不足的上下文,导致不完整或不准确的响应。确定最优k值需要实证评估以在足够上下文与最小化无关信息之间取得平衡。
    这个精心构建的RAG系统为我们实验奠定了基础,使我们能够评估文档大小和质量对RAG + Text2SQL环境性能的影响。
    4.4 关于Text2SQL模型
    语言模型正在通过让用户使用自然语言查询数据库来消除对专门SQL知识的需求,从而改变数据管理。这一创新已促使对Text2SQL和检索增强生成(RAG)方法进行了广泛研究(Biswal等人 [2024])。对于我们的Text2SQL任务,我们使用了基于LLama-3的SQLCoder-8B(Defog [2024]),这是一款最先进的AI模型,旨在将自然语言查询转换为SQL。SQLCoder-8B解决了传统Text2SQL模型的局限性,在准确率、适应性和易用性方面树立了新标杆。在零样本场景中,该模型的准确率超过90%,在各种查询上下文中表现出卓越性能,使其成为我们研究的核心。 为了确保最佳性能,我们在实验中仔细调整了几个超参数:
  15. 温度:设置为0.01以最小化输出随机性,增强生成查询的一致性。
  16. Top_p:配置为0.7以控制生成响应的多样性,同时保持相关性。
  17. 最大新标记数:限制为1024,确保模型生成完整且语法正确的SQL查询,避免不必要的冗长。
  18. 返回完整文本:设置为False以简化输出,便于集成到下游流程中。
    这些优化对于使SQLCoder-8B在RAG + Text2SQL系统中有效运行至关重要,提供了准确和高效的查询生成。模型的稳健性和适应性使其成为探索文档大小和质量对系统性能影响的理想选择。


图1:RAG + Text2SQL系统的端到端管道
图1展示了我们集成检索增强生成(RAG)的Text2SQL系统的完整工作流程。它展示了用户查询、检索过程和生成模型之间的互动,突出显示了外部文档中的相关上下文如何无缝融入SQL生成过程。
4.4.1 Text2SQL模型的提示设计
影响大型语言模型(LLMs)性能的一个关键因素是输入提示的结构和内容。每个模型都需要精心设计的提示格式以确保最佳功能。在我们的Text2SQL模型中,提示设计旨在整合引导模型生成准确SQL查询的基本组件。提示包括以下三个核心元素:

  1. 用户问题:这是用户的自然语言查询,需要转换为相应的SQL语句。
  2. 指令:这些是特定的指示,旨在指导Text2SQL模型如何处理输入并生成所需的SQL查询。清晰和精确的指令在确保模型遵循预期逻辑和查询格式方面起着关键作用。
  3. RAG系统提供的信息:在我们的系统中,检索增强生成(RAG)机制通过从最相关的前3个文档或表中检索模式详情和相关知识来提供关键上下文。检索到的信息被纳入提示中,使Text2SQL模型能够理解数据库结构并生成准确的SQL查询。

下面,我们展示了一个在我们的Text2SQL模型中使用的提示结构示例。该示例说明了如何提供指令以引导模型生成SQL查询,以及用户的提问和对应的表模式。

<|begin_of_text|><|start_header_id|>user<|end_header_id|>
Generate a SQL query to answer this question: '{question}'
### Instructions
- Given an input question, create a syntactically correct query to run, then
look at the results of the query and return the answer.

  • 切勿查询来自特定表的所有列;只询问与问题相关联的列。
  • 仅返回用户要求的列;不要提供任何用户未明确请求的附加ID列。
  • 如果用户未明确要求排序,则不要在查询中添加ORDER BY。
  • 如果您无法通过可用的数据库模式回答问题,请返回 ‘I do not know.’
  • 确保您永远不会返回两个具有相同名称的列,特别是在连接两个表之后。您可以通过应用column_name + table_name来区分相同的列名。
  • 绝对不要对数据库进行任何DML语句(INSERT、UPDATE、DELETE、DROP等)。
  • 如果您仅从表中获取数据,则使用其列来过滤数据。
  • 您必须在执行查询之前再次检查您的查询。如果在执行查询时遇到错误,请重写查询并再次尝试。

DDL语句: CREATE TABLE “farm” ( “Farm_ID” int, “Year” int, “Total_Horses” real, “Working_Horses” real, “Total_Cattle” real, “Oxen” real, “Bulls” real, “Cows” real, “Pigs” real, “Sheep_and_Goats” real, PRIMARY KEY (“Farm_ID”) ); CREATE TABLE “farm_competition” ( “Competition_ID” int, “Year” int, “Theme” text, “Host_city_ID” int, “Hosts” text, PRIMARY KEY (“Competition_ID”), FOREIGN KEY (‘Host_city_ID’) REFERENCES ‘city’(‘City_ID’) );

CREATE TABLE “competition_record” ( “Competition_ID” int, “Farm_ID” int, “Rank” int, PRIMARY KEY (“Competition_ID”,“Farm_ID”), FOREIGN KEY (‘Competition_ID’) REFERENCES ‘farm_competition’(‘Competition_ID’), FOREIGN KEY (‘Farm_ID’) REFERENCES ‘farm’(‘Farm_ID’) );<|eot_id|><|start_header_id|>assistant<|end_header_id|> 以下SQL查询最能回答问题’{question}‘:’’’sql # 5 评估指标

为了评估RAG系统和组合RAG + Text2SQL系统的性能,我们创建了多组文档。我们的目标是评估文档内容和质量变化对这两个系统性能的影响。通过分析这些变化,我们旨在了解不同文档特征如何影响基于RAG的检索过程的整体性能以及后续的Text2SQL查询生成。

5.1 RAG系统的评估指标

RAG系统通过检索与用户查询最相关的前k个文档及其相应的相关性评分来评估用户查询,其中较低的评分表示更高的相关性。为了评估RAG系统在从SPIDER数据集创建的不同数据集上的表现,我们测量并比较了其有效区分相关表和非相关表的能力。

一个优秀的RAG系统以其能够分配更广范围的相关性评分而著称,显示出对有效和非相关文档的明显区别。相反,如果前k个文档的评分聚集得很近,则表明系统在区分方面存在困难,可能存在混淆。我们为每个数据集变体通过RAG系统执行了所有用户查询,并记录了检索到的前k个文档及其相关性评分。使用以下指标分析了这些评分的分布:

  1. 折扣累积增益(DCG):评估检索到文档的相关性,强调更高排名的文档。

其中:

  • 是位置 的文档的相关性评分。
  • 是排名位置(在此为 top-)。
  1. 标准差(Std Dev):衡量相关性评分的分布情况,以了解系统区分能力的变异程度。

其中:

  • 是检索到的前几个文档的数量。
  • 是位置 的文档的相关性评分。
  • 是前- 个文档的平均相关性评分:
  1. 范围:捕捉前k个文档中最高分和最低分之间的差异,以指示系统评分分布的广度。

其中:

  • 是前- 个文档中的最高相关性评分。
  • 是前- 个文档中的最低相关性评分。

对于每个数据集,我们计算了所有用户查询的这些指标的平均值。通过比较汇总指标,我们旨在评估和排名不同RAG系统配置和文档表示的性能。这种方法确保了对RAG系统在不同数据集结构中有效检索和排名相关表的全面理解。

其中 Q 是用户查询的总数。

5.2 RAG + Text2SQL系统的评估指标

在本研究中,我们的主要焦点不是单独测量Text2SQL模型的性能,因为这需要进行不同超参数和模型配置的实验,这超出了本研究的范围。相反,我们的目标是评估不同文档数据集对RAG + Text2SQL系统的影响。为此,我们评估了整个RAG + Text2SQL系统生成的SQL查询的质量。 评估涉及测量幻觉实例和进行SQL查询相似性检查。为此,我们将生成的SQL查询与SPIDER数据集中提供的相应正确查询进行比较。使用以下指标来测量查询相似性并识别差异:

  1. 归一化编辑距离:该过程包括以下步骤,计算生成的和正确的SQL查询之间的编辑距离。然后,通过将距离除以查询长度来归一化距离。如果归一化的编辑距离低于0.5(经经验确定),则认为查询相似;否则,它们不相似。
  2. 嵌入匹配:步骤是使用all-MiniLM-L12-v2模型将SQL查询转换为文本嵌入,然后测量嵌入之间的余弦相似度。最后,将相似度得分小于或等于0.85的查询分类为不匹配。
  3. 模糊匹配:涉及使用模糊字符串匹配算法计算查询之间的相似度得分。设置了75的阈值,因此相似度得分等于或超过此值的查询被认为相似。
  4. SQL组件匹配:涉及在生成的和正确的SQL查询之间进行逐组件比较,评估:
  • 表选择:匹配查询中涉及的表。
  • 列选择:匹配查询的列。
  • 操作选择:匹配查询中使用的操作(例如JOIN、WHERE、GROUP BY)。

这些组件中的任何不匹配都表明生成的查询与预期查询不符,突出了查询生成中的幻觉实例。 5. 数据库执行比较:在此步骤中,在PostgreSQL数据库上执行生成的和正确的SQL查询,并比较输出。然后,它利用结果的确切匹配和基于规则的匹配。输出中的不匹配表明生成的SQL查询要么不正确,要么不适合给定的查询。

最后,我们测量了表现出幻觉的SQL查询的百分比作为上述指标。通过应用这些指标,我们系统地评估了文档变化对RAG + Text2SQL系统的影响,并提供了生成的SQL查询质量和可靠性的见解。

6 结果与分析

为了评估不同文档内容和质量对RAG + Text2SQL系统的影响,我们使用了从SPIDER数据集中得出的七个文档集。这些数据集从仅包含原始CREATE TABLE语句的Spider-Data-1到包含修改后的CREATE TABLE语句、文本表描述和两个示例INSERT查询以提供全面上下文的Spider-Data-7不等。从Spider-Data-1到Spider-Data-7的逐步进展系统地增加了RAG系统可获得的数据量和上下文丰富度。主要目标是分析随着文档内容的增加,RAG系统和综合RAG + Text2SQL系统的性能如何变化。尽管所有数据集中的附加信息,如文本描述和示例INSERT查询,都是相关的,但我们旨在确定此类内容增强对检索相关性和SQL查询生成的影响。添加的信息旨在提高Text2SQL模型对表、模式和数据类型的理解。

6.1 RAG检索性能

为了评估RAG系统的性能,我们分析了为每个用户查询检索的顶级文件的相关性评分。一个优秀的RAG系统的特点是相关性评分的分布较广,这表明其有效区分相关和不相关文档的能力。

关键指标用于捕捉性能:

  1. 相关性评分范围:顶级文件中最高和最低相关性评分之间的差异。
  2. 相关性评分标准差:表示评分的变异性和系统的区分能力。
  3. 折扣累计收益(DCG):衡量检索文档的排名质量,对排名靠前的文档给予更多重视。
    这些指标的平均值在所有查询中计算并绘制在图2、图3和图4中。这些图表展示了从Spider-Data-1到Spider-Data-7文档内容增加时性能指标的变化。
    从以上图表中得出的以下观察结果与评分和RAG系统的性能有关:
  4. 评分范围:随着文档内容更丰富,评分范围扩大,反映出RAG系统在区分相关和不相关文档方面有所改善。
  5. 标准差:对于内容更丰富的数据集,观察到更高的标准差,支持了详细文档增强了系统的区分能力。
  6. DCG:随着更多信息的添加,DCG指标呈现出下降趋势,表明RAG系统检索到的顶级文档在DCG公式中变得更加相关;我们使用了RAG评分,评分越低,文档越相关。
  7. 图表展示了从包含表模式文本描述的文档数据集5开始,RAG系统的性能显著提高。这一改进强调了提供关于SQL表模式的额外上下文信息的价值,使RAG系统能够更好地区分表并根据相关性更有效地对其排名。包含更丰富内容的文档集,如Spider-Data-6和Spider-Data-7,由于关于表模式和数据类型的更好上下文信息,展现了RAG的性能。
  8. 此外,在文档文件中添加INSERT语句在文档集3和4中有所帮助,其中内容较少,但随着从文档集5开始信息量增加,在6和7中添加INSERT语句对RAG帮助不大。
    这些结果突显了文档质量和检索效果之间的关系。包含结构化信息的综合文档增强了RAG系统检索高度相关内容的能力,这直接影响了Text2SQL系统的性能。
    6.2 RAG + Text2SQL性能
    我们实验中文档内容在不同数据集中的进展直接影响了Text2SQL模型的提示大小。尽管更丰富的文档内容提供了更多的上下文,使Text2SQL模型能够更好地理解表模式并生成准确的SQL查询,但更大的提示大小也增加了幻觉的可能性。在提供全面信息和保持提示清晰之间取得平衡对于优化系统性能至关重要。 为了评估文档变化对RAG + Text2SQL系统的影响:


图2:不同文档集的平均评分范围变化


图3:不同文档集的平均评分标准差变化


图4:不同文档集的平均评分DCG变化


图5:不同文档集在每种相似性度量下标记为相似的查询百分比。


图6:不同文档集的SQL查询各组件出现不匹配的查询百分比。

  1. 查询生成:系统对所有七个文档集中的每个自然语言查询运行一次。Text2SQL模型为每个查询生成SQL查询。
  2. 地面真值:SPIDER数据集提供了每个自然语言问题对应的正确SQL查询,作为比较的地面真值。
  3. 评估指标:使用以下指标测量生成的SQL查询和地面真值SQL查询之间的相似性:
  • 归一化编辑距离:通过计算将一个查询转换为另一个查询所需的最少编辑次数,量化两个SQL查询的结构相似性。
  • 嵌入匹配:通过将查询表示为向量嵌入并计算它们的余弦相似度来捕获语义相似性。
  • 模糊匹配:使用容忍轻微变化的字符串匹配技术评估文本相似性。
  • SQL组件匹配:该指标评估SQL查询的各个组件,如表选择、列选择和操作选择。通过比较生成的和正确的SQL查询中的这些元素,可以识别出查询生成中哪些具体方面最易出现幻觉。
  • 数据库执行比较:此方法涉及在PostgreSQL数据库上执行生成的和正确的SQL查询并比较其输出。它通过评估结果的等价性直接衡量查询的正确性。

我们计算了前三种相似性度量中相似度得分超过预定义阈值的查询对百分比。该阈值使我们能够将生成的SQL查询分类为与地面真值相似或不相似。图5中展示的相似度得分表示根据相应评估度量,在每个文档集的RAG配置下被认为相似的查询百分比。

图6通过分析不同组件的SQL查询不匹配情况,展示了RAG + Text2SQL系统在不同文档集上的性能。具体来说,它描绘了每个组件中生成的SQL查询与正确的SQL查询之间出现幻觉或不匹配的查询百分比。此评估提供了关于查询生成哪些方面最容易出错的见解。 接下来,在图7中,我们绘制了在执行时给出相同数据库系统结果的正确SQL查询和Text2SQL模型生成的SQL查询对的百分比。这将为我们提供RAG+Text2SQL系统在不同文档集上的性能变化的衡量标准。 以下观察结果从上述图表和分析中得出,提供了关于RAG+Text2SQL系统在各种文档集上的整体性能的见解:

图7:不同文档集在数据库执行中给出相同结果的查询百分比

  1. 相似度得分:图5展示了相似度得分的趋势,揭示了随着用于RAG的文档内容增加,RAG + Text2SQL系统的性能下降。这种下降归因于更大的提示大小,导致更多的幻觉和生成的SQL查询与正确的SQL查询之间的更大差异。尽管从数据集1到4相似度得分有所改善,但文档集5中添加文本描述后,所有相似度指标都有显著下降。这表明,尽管增加的内容相关,但它引入了影响模型准确性的复杂性。
  2. SQL组件匹配:图6展示了SQL查询各组件中出现幻觉的查询百分比,突出显示了从文档集4到文档集5幻觉的增加。在各组件中,表选择和操作选择中的幻觉明显较低,表明Text2SQL模型在这两个领域表现良好。然而,列选择显示出显著更高的幻觉。这主要是因为生成的SQL查询包括不必要的表ID列,即使这些列对于查询并不需要。虽然这些额外的ID不影响查询结果的正确性,但它们是多余的,尽管明确指示模型避免不必要的列;这种行为可能反映了LLM内部工作的固有限制。解决这些问题可能需要比本研究中使用的8B参数Text2SQL模型更强大或更先进的模型。但是,基准测试其他Text2SQL模型超出了本工作的范围。随着复杂性的增加,幻觉率在不同的文档集中上升。
  3. 数据库执行比较:图7展示了在不同文档集中执行数据库时返回相同结果的查询百分比。我们通过执行正确的SQL查询和生成的SQL查询来比较获取的结果。我们的分析显示,在文档集4和5之间生成的SQL查询质量有显著下降。这种性能下降可归因于后期文档集中较大的提示大小所直接导致的幻觉增加。
  4. 尽管RAG的整体性能有所提高,但在文档内容过多的情况下也观察到了一些幻觉现象,突显了上下文丰富性和提示复杂性之间的权衡。
    这一评估突显了文档设计与系统性能在RAG + Text2SQL管道中的微妙互动,强调了实现最佳结果需要定制的文档结构的重要性。 # 7 讨论
    本研究探讨了文档大小、质量和检索增强生成(RAG)+ 文本到SQL系统之间的相互作用。以下几点总结了我们的发现,并突出了影响系统性能的关键因素:
  5. 文档内容大小的影响:实验表明,增加文档内容的大小对独立的RAG组件有益,但不一定能提高RAG + Text2SQL系统的整体性能。文档中的过多内容可能导致收益递减甚至对系统性能产生负面影响。
  6. 内容增加后的性能限制:与直觉相反,扩展文档内容并不能保证增强RAG + Text2SQL管道的性能。这凸显了平衡文档大小以优化整个系统的重要性。
  7. 单样本示例的有效性:当文档已经包含大量内容时,单样本示例的效用会降低。相比之下,当文档文本信息有限时,单样本示例更具影响力。这一发现表明,应根据文档质量和内容密度战略性地调整示例的作用。
  8. 处理现实世界文档挑战:现实世界中用于RAG系统的文档通常包含噪声和冗余信息。清理和转换此类文档对于提高系统性能至关重要。使用多个文档集(2-3种变化)测试系统可以提供对其行为和可靠性的更稳健理解。
  9. 图6和图7中的见解:如图6和图7所示,文档集4表现出最佳的整体性能。该集合具有最少的文本信息,并包括与数据插入相关的示例,使Text2SQL模型能够更好地理解表结构。这些发现强调了优化文档内容以平衡清晰度和信息量的重要性。
  10. RAG和Text2SQL组件之间的权衡:虽然添加更多文本信息可能会增强RAG系统区分表的能力,但它会对Text2SQL模型产生负面影响。由过多文档内容产生的较大提示往往会产生更多幻觉结果,从而降低系统的准确性和可靠性。
    本次评估突出了文档设计与系统性能在RAG + Text2SQL管道中的微妙互动,强调了优化文档结构以实现最佳结果的重要性。
    8 提出的优化方法
    为了优化RAG + Text2SQL系统的性能,精心设计文档内容至关重要。准备文档时应考虑以下因素:
  11. 文档数量:当文档集较小或涉及较少的SQL表时,无需过于关注RAG。在这种情况下,没有大量文本内容的文档可能就足够了。较大的文档集,包含详细的表描述和附加内容,可以增强RAG系统区分表的能力,从而提高其性能并减少无关表的选择。
  12. 表/文档的质量:如果数据集中的表高度相似(例如,大多数表属于同一领域),则需要一个更强大的RAG系统。在这种情况下向文档中添加相关内容可以帮助提高性能。如果文档集包含多样且独特的表,则在文档中包含基本模式通常就足以让RAG检索到相关结果。
  13. Text2SQL模型的质量:高性能的Text2SQL语言模型(LLM)可以处理RAG系统中更详细的内容,同时降低幻觉风险。因此,当使用强大的Text2SQL LLM时,在文档中包含有用和描述性内容是有利的。
  14. RAG中的K值:如果RAG中的检索参数增加,则应相应调整文档内容。较高的值会增加传递给Text2SQL模型的提示大小,这可能影响系统的效率和准确性。在这种情况下,较小的文档大小更适合LLM,以避免过长的提示大小。
  15. 动态内容选择:实施动态过滤机制可以显著减少输入中的噪声。允许RAG仅选择模式文档中最相关的部分传递给Text2SQL模型,确保模型专注于关键信息,从而提高整体系统性能。

总之,优化RAG驱动的Text2SQL系统中的文档内容需要仔细考虑文档大小、质量和与底层模型能力的对齐。这些提出的策略最大化系统效率,同时最小化错误,为研究和实际应用提供了可行的见解。

9 局限性和未来工作

本节讨论了我们在评估RAG + Text2SQL系统在各种文档配置下的性能时的实验设置的局限性,并指出了未来研究的潜在方向。本研究的实验仅在SPIDER(Yu等人 [2019])数据集上进行,尽管这是一个广泛认可的Text2SQL系统基准,但它可能无法提供适用于具有不同结构、复杂程度或特定领域特征的数据集的结果。SPIDER中的模式文档和查询模式不能完全捕捉现实应用中出现的多样性和变化性,限制了我们发现的更广泛应用。

另一个关键限制在于本研究所使用的Text2SQL模型的提示长度约束。对于大型或复杂的模式,经常会发生输入截断,导致上下文丢失,从而影响系统性能。此外,系统假设存在预定义的模式或结构化数据库,这限制了其在处理非结构化或半结构化数据时的适应性。这种依赖性限制了系统在模式不完整、演变或缺失的情况下的应用。

尽管存在这些挑战,我们的工作开辟了几条未来研究的有希望方向。研究RAG + Text2SQL方法在具有广泛模式的大数据库中的可扩展性至关重要,重点在于提高计算效率、响应时间和内存管理,以确保在生产环境中的实际可行性。在RAG增强输入上微调Text2SQL模型可能增强其处理检索系统引入的变化的能力,从而在不同背景下提高性能。

努力减轻幻觉代表了另一个关键探索方向。整合领域特定约束、实现置信度评分机制或应用后处理校正方法可能证明有益。此外,推进针对特定查询上下文动态生成模式文档的方法具有重要意义。这种方法将解决与提示长度限制相关的问题,同时优化模式细节与简洁之间的平衡,提高系统的整体适应性。解决这些限制并追求这些研究方向可以显著增强RAG + Text2SQL系统在实际场景中的稳健性、可扩展性和实用性。

10 结论

本研究调查了在检索增强生成(RAG)系统中文档设计的优化问题,以应用于文本到SQL任务。实验的关键发现强调了如何有效平衡文档大小、质量和查询生成准确性。我们发现,提供结构化和描述性文档、结合语法修正查询以及利用零样本、一样本和二样本学习等学习技术对于提高像Llama 3 SQLCoder这样的模型生成SQL查询的准确性至关重要。尽管加入表和列描述提高了表和列选择的性能,但也导致某些情况下语法错误和幻觉频率更高。此外,我们观察到平衡文档大小和内容质量对于最小化查询结果中的差异至关重要,当使用修正语法和简单查询结构时,与基础查询的偏差较小。

这些发现的意义在于它们有可能指导更有效的RAG系统的开发,使其能够生成准确的SQL查询并尽量减少错误。结合动态内容过滤、提示构造和基于查询上下文的自适应文档设计等策略可以提高查询生成的准确性和效率。这些发现还强调了减少文档大小而不牺牲相关细节的重要性,从而提高模型生成准确查询的能力,同时尽量减少不必要的计算负担。总之,在RAG + 文本到SQL系统中实现文档设计的最佳平衡涉及在保持文档质量与确保查询准确性之间进行微妙的权衡,通过改进内容过滤方法和构建相关文档来实现。

参考文献

梁世石、唐征华、张楠、张晓通、杨智。运用大型语言模型进行文本到SQL任务的综述。arXiv预印本arXiv:2407.15186, 2024。 高云帆、熊云、高欣宇、贾康祥、潘金流、毕玉玺、戴毅、孙佳伟、王梦、王浩芬。大型语言模型的检索增强生成:综述。arXiv预印本arXiv:2312.10997, 2024。 Patrick Lewis、Ethan Perez、Aleksandra Piktus、Fabio Petroni、Vladimir Karpukhin、Naman Goyal、Heinrich Küttler、Mike Lewis、Wen-tau Yih、Tim Rocktäschel、Sebastian Riedel 和 Douwe Kiela。知识密集型自然语言处理任务的检索增强生成。第34届神经信息处理系统国际会议论文集,NIPS ’20卷33页9459-9474, 红钩,纽约,美国,2020年。Curran Associates Inc. ISBN 9781713829546。 Gautier Izacard、Patrick Lewis、Maria Lomeli、Lucas Hosseini、Fabio Petroni、Timo Schick、Jane Dwivedi-Yu、Armand Joulin、Sebastian Riedel 和 Edouard Grave。Atlas:少样本学习与检索增强语言模型。arXiv预印本arXiv:2208.03299, 2022。 Kelvin Guu、Kenton Lee、Zora Tung、Panupong Pasupat 和 Ming-Wei Chang。REALM:检索增强语言模型预训练。第37届国际机器学习会议论文集,ICML’20。JMLR.org, 2020。

Sebastian Borgeaud、Arthur Mensch、Jordan Hoffmann、Trevor Cai、Eliza Rutherford、Katie Millican、George van den Driessche、Jean-Baptiste Lespiau、Bogdan Damoc、Aidan Clark、Diego de Las Casas、Aurelia Guy、Jacob Menick、Roman Ring、Tom Hennigan、Saffron Huang、Loren Maggiore、Chris Jones、Albin Cassirer、Andy Brock、Michela Paganini、Geoffrey Irving、Oriol Vinyals、Simon Osindero、Karen Simonyan、Jack W. Rae、Erich Elsen 和 Laurent Sifre。通过从万亿个标记中检索来改进语言模型。arXiv预印本arXiv:2112.04426, 2022. 王晓华、王正华、高宣、张飞然、吴义新、徐志波、史天元、王正远、李世政、钱琪、尹瑞成、吕昌泽、郑小青、黄宣静。检索增强生成的最佳实践搜索。Yaser Al-Onaizan、Mohit Bansal 和 Yun-Nung Chen 编辑,《2024年经验方法在自然语言处理会议论文集》,迈阿密,佛罗里达州,美国,2024年11月。计算语言学协会。doi:10.18653/v1/2024.emnlp-main.981. URL https://aclanthology.org/2024.emnlp-main.981/. 普拉纳布·萨胡、辛格·阿育什·库马尔、萨里帕尔纳·萨哈、珍妮雅·贾恩、山姆拉特·蒙达尔、阿曼·查达。大型语言模型中的提示工程系统综述:技术和应用。arXiv预印本arXiv:2402.07927, 2024.

常凯岩、许松城、王程龙、罗英峰、刘晓倩、肖通、朱景波。大型语言模型的有效提示方法:综述。arXiv预印本arXiv:2404.01077, 2024. 刘宁峰、张田一、梁珀西。评估生成搜索引擎的可验证性。arXiv预印本arXiv:2304.09848, 2023. 约书亚·梅内兹、沙希·纳拉扬、伯恩德·博内特、瑞安·麦克唐纳。忠实性和事实性在抽象摘要中的作用。丹·朱拉夫斯基、乔伊丝·蔡、娜塔莉·施卢特、乔尔·泰特雷尔编辑,《2020年第58届计算语言学协会年会论文集》,在线,2020年7月。计算语言学协会。doi:10.18653/v1/2020.acl-main.173. URL https://aclanthology.org/2020. acl-main.173/. 卞宁、林红宇、刘佩琳、陆尧杰、张春康、何本、韩先培、孙乐。外部信息对大型语言模型的影响反映了社会认知模式。arXiv预印本arXiv:2305.04812, 2023.

瓦伊巴夫·阿德莱卡、帕里夏德·贝赫南加德、卢星寒、尼古拉斯·米德、希瓦·雷迪。评估指令遵循模型在问答中的正确性和忠实性。arXiv预印本arXiv:2307.16877, 2024. 阿斯姆·比斯瓦尔、利亚娜·帕特尔、悉达尔思·贾、阿莫格·卡姆塞蒂、刘舒、约瑟夫·E·冈萨雷斯、卡洛斯·古埃斯特林、马特·扎哈里亚。Text2sql还不够:通过TAG统一AI和数据库。arXiv预印本arXiv:2408.14717, 2024. 钟维克、熊彩明、索彻·理查德。Seq2sql:使用强化学习将自然语言转换为结构化查询。arXiv预印本arXiv:1709.00103, 2017. 关于构建RAG系统的技术文档的观察。构建RAG系统的技术文档的观察。arXiv预印本arXiv:2404.00657, 2024. 赵胜明、黄雨恒、宋佳阳、王治杰、万成诚、马磊。了解RAG系统中的检索准确性和提示质量。arXiv预印本arXiv:2411.19463, 2024a. 何佳、鲁克塔·穆昆德、大卫·科尔茨克、阿尔什迪普·塞科恩、弗兰克林·X·王、哈桑·萨迪德。提示格式对LLM性能是否有任何影响?arXiv预印本arXiv:2411.10541, 2024. 汤姆·布朗、本杰明·曼、尼克·赖德尔、梅兰妮·苏比亚、贾里德·卡普兰、普拉富拉·达里瓦尔、阿尔温德·尼拉卡坦、普拉纳夫·施亚姆、吉里什·萨斯特里、艾曼达·阿斯克尔、桑丁尼·阿加瓦尔、阿里尔·赫伯特-沃斯、格雷琴·克鲁格、汤姆 亨尼根、雷温·童、阿迪亚·拉梅什、丹尼尔·M·齐格勒、杰弗里·吴、克莱门斯·温特、克里斯托弗·赫斯、马克·陈、埃里克·西格勒、马特乌什·利特温、斯科特·格雷、本杰明·切斯、杰克·克拉克、克里斯托弗·伯纳、山姆·麦坎德利什、阿莱克·拉德福德、伊利亚·苏茨克弗、达里奥·阿莫代伊。语言模型是少量样本学习者。arXiv预印本arXiv:2005.14165, 2020. 竹村武、久保田善彦、万庆、渡边悠太、佐藤裕子、岩井优介。大规模语言模型是零样本推理者。arXiv预印本arXiv:2205.11916, 2023. Dharunish Yugeswardeenoo、Kevin Zhu 和 Sean O’Brien。问题分析提示改进了LLM在推理任务中的表现。arXiv预印本arXiv:2407.03624, 2024. 彭宝林、米歇尔·加利、彭承河、郝程、谢雨佳、胡宇、黄秋媛、拉尔斯·利登、周宇、卫知珠、高建峰。检查你的事实并重试:通过外部知识和自动化反馈改进大型语言模型。arXiv预印本arXiv:2302.12813, 2023. 努瓦·迪齐里、安德里亚·马多托、奥斯马尔·扎伊恩、阿维舍克·乔伊·博斯。神经路径猎人:通过路径接地减少对话系统中的幻觉。arXiv预印本arXiv:2104.08455, 2021. 菲利普·费尔德曼、詹姆斯·R·福尔兹、潘诗美。通过标记上下文提示捕捉LLM幻觉。arXiv预印本arXiv:2306.06085, 2023. 尼拉杰·瓦什尼、姚文林、张宏伟、陈剑树、俞东。及时缝补九处:通过验证低置信度生成检测和减轻LLM幻觉。arXiv预印本arXiv:2307.03987, 2023.

Shehzaad Dhuliawala、Mojtaba Komeili、Jing Xu、Roberta Raileanu、Xian Li、Asli Celikyilmaz 和 Jason Weston。验证链减少了大语言模型中的幻觉。arXiv预印本arXiv:2309.11495, 2023. Andrew Jesson、Nicolas Beltran-Velez、Quentin Chu、Sweta Karlekar、Jannik Kossen、Yarin Gal、John P. Cunningham 和 David Blei。估计生成式AI的幻觉率。arXiv预印本arXiv:2406.07457, 2024. 于涛、张锐、杨凯、山口道行、王东旭、李子凡、马健、李爱琳、姚晴宁、Shanelle Roman、张子霖、Dragomir Radev。Spider:一个大规模人工标注的复杂跨域语义解析和文本到SQL任务数据集。arXiv预印本arXiv:1809.08887, 2019. Penghao Zhao, 张海琳, 虞秦汉, 王正仁, 高颖腾, 傅方诚, 杨玲, 张文韬, 江杰, 崔斌. 增强生成人工智能内容的检索增益生成:综述. arXiv预印本arXiv:2402.19473, 2024b. Ayman Asad Khan, Md Toufique Hasan, Kai Kristian Kemell, Jussi Rasku, 和 Pekka Abrahamsson. 从PDFs开发检索增强生成(RAG)为基础的LLM系统:经验报告. arXiv预印本arXiv:2410.15944, 2024. Harrison Chase. Langchain, 2022. URL https://github.com/langchain-ai/langchain. Roman Aperdannier, Melanie Koeppel, Tamina Unger, Sigurd Schacht, 和 Sudarshan Kamath Barkur. 不同嵌入搜索方法的系统评估. In Kohei Arai, 编辑, Advances in Information and Communication, 第526-536页, Cham, 2024. Springer Nature Switzerland. ISBN 978-3-031-53963-3. Matthijs Douze, Alexandr Guzhva, Chengqi Deng, Jeff Johnson, Gergely Szilvasy, Pierre-Emmanuel Mazaré, Maria Lomeli, Lucas Hosseini, 和 Hervé Jégou. FAISS库. arXiv预印本arXiv:2401.08281, 2024. Defog公司. Langchain, 2024. URL https://huggingface.co/defog/1lama-3-sq1coder-8b.

原文:https://arxiv.org/pdf/2502.1572

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值