SQL Boy?大模型时代基于检索增强(RAG)的增删改查评估框架CRUD-RAG

fe6ffcb062d4709fa8af7ac88afc59a5.gif

5fbe3d46fed3e2e14bbb298f2d0e6cc4.png

论文标题:

CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models

作者单位:

中国科学技术大学,上海算法创新研究院,新华社融媒国重

论文地址:

https://arxiv.org/abs/2401.17043

数据&代码地址:

https://github.com/IAAR-Shanghai/CRUD_RAG

b08ff92effec61eb70664675070dca25.png

3fe5f462156f1108846f5404b4799698.png

介绍

检索增强生成(RAG)是一项利用外部知识源提升大型语言模型(LLMs)的文本生成能力的技术。基于输入检索语料库中的相关段落,并将其与输入一同提供给大模型。在外部知识的辅助下,大模型能够生成更准确可信的回应,有效解决知识过期、幻觉和领域专业知识不足等挑战。因此,RAG 技术在大模型时代备受瞩目。

检索增强策略(RAG)已经在广泛的实践中证明了其有效性,但是在实际场景中应用和部署 RAG 系统仍然面临着挑战。RAG 系统的性能取决于系统中的各种参数,如检索模型、外部知识库的构建和语言模型。因此,为了指导 RAG 系统的部署,对 RAG 系统进行自动评估至关重要。

目前用于评估 RAG 系统性能的基准可以分为两类:需要参考答案的和不需要参考答案的。无参考评估框架,如 RAGAS 和 ARES,使用大模型自动评估 RAG 系统生成内容的上下文相关性、忠实度和信息量。这些框架不依赖于真实参考答案,而只评估生成文本与检索上下文的一致性。如果检索的外部信息质量低,这种方法可能不够可靠。

因此,依赖参考答案的评估方式仍然是评估 RAG 系统的主要方法。目前,有参考答案的评估基准只有少数几个小规模的,因为创建高质量的数据集并对其进行实验涉及到相当大的成本。而且,这些评估 RAG 的基准都依赖于问答任务来衡量 RAG 系统的性能。

然而,问答并非是唯一的 RAG 应用场景,适用于问答的优化策略未必能推广到其他场景。因此,这些基准可能无法充分评估 RAG 系统在不同应用场景下的表现。

此外,在实验中,当前的评估通常集中于评估 RAG 链路中的大模型部分,而忽略了检索模型和外部知识库构建。这些组件对于 RAG 系统同样至关重要。

e75d56d573b3958016d35574849d533c.png

为了克服以上缺陷,研究者们急需一个全面的、更大规模的 RAG 评估基准,不仅仅涵盖问答任务。事实上,任何涉及知识库和用户交互的操作,都可以被分为增、删、改、查四类,也被称为 CRUD 操作。而 RAG 系统的本质是大模型和外部知识库的交互。因此,同样可以将 RAG 系统的应用场景分为增、删、改、查四类。

如下图所示,CRUD 的每个类别分别代表了 RAG 系统的不同应用场景。

  • 在“增”场景下,系统通过参考知识库中的信息,丰富输入文本,生成创意输出,如诗歌、故事或代码。

  • 在“删”场景下,系统简化检索到的信息,删除无关的不重要内容,呈现给用户更精炼的摘要。

  • 在“查”场景下,系统检索外部知识,推理并回答用户的问题。

  • 在“改”场景下,系统使用检索到的内容纠正输入文本中的错误,纠正拼写、语法或事实错误。

为了在这四个场景下评估 RAG 系统的性能,作者构建了 CRUD-RAG,一个全面的、大规模的中文 RAG 评估基准。CRUD-RAG 包括四个评估任务:文本续写、问答(包括单文档问答和多文档问答)、幻觉纠正和多文档摘要,分别对应于 RAG 应用场景的 CRUD 分类。

在实验中,作者系统地评估了 RAG 系统在 CRUD-RAG 基准上的性能。评估了可能会影响 RAG 系统性能的各种因素,如上下文长度、块大小、嵌入模型、检索算法和大模型。根据实验结果,作者还为构建有效的 RAG 系统提供了一些建议。

主要贡献点:

  1. 提出了一个更为全面的 RAG 评估基准:CRUD-RAG 评估基准不再局限于使用问答任务评估 RAG 系统,而是涵盖 RAG 应用的增删改查(CRUD)四种不同场景。

  2. 构建高质量的评估数据集:作者基于 RAG 的应用场景&#x

  • 17
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值