AI教我做事之RAG开发-7 RAG评估基准与框架

基准(Benchmark)

  1. RGB:[9]

RGB 基准的数据是从最新的新闻文章中生成问答实例,并通过搜索引擎检索外部文档以模拟真实世界的检索增强生成场景。该基准提供了英文和中文版本。RGB 评估 LLM 的四项关键能力:

  • 噪声鲁棒性(Noise Robustness): 评估模型在处理包含无关或噪声信息的文档时,能否仍然提取出有用信息。

  • 否定拒绝(Negative Rejection): 评估当检索到的文档不包含答案时,模型能否识别并拒绝生成误导性内容。

  • 信息集成(Information Integration): 评估模型能否在回答复杂问题时,从多个文档中整合信息。

  • 反事实鲁棒性(Counterfactual Robustness): 评估模型能否识别并处理包含错误信息的文档。

开源地址:

 更多资源参考,2img.ai

2. RECALL:[10]

RECALL 是由北京大学和腾讯微信 AI 团队联合开发的评估基准,专门用于评估大型语言模型(LLMs)在面对外部反事实知识时的稳健性。该基准包含两个主要任务:问答(Question Answering, QA)和文本生成(Text Generation)。在每个任务中,RECALL 提供一个包含反事实信息的上下文,模型需要在提供的正确和错误答案两个选项中进行选择。文中的结论:模型容易被错误的上下文误导,当其内在知识与提供的上下文内容相矛盾时,更容易产生质量较低的回复。通过提示词优化和推理干预等方法进行了尝试,但这些方法无法有效解决该问题。

  1. CRUD-RAG [11]

CRUD-RAG 是由中国科学技术大学等发布的RAG中文基准数据集,用于全面评估RAG的性能。现有的评估基准大多集中于问答任务,忽视了其他的 RAG 应用场景。CRUD-RAG 基准基于 CRUD 操作(Create、Read、Update、Delete),将 RAG 的应用场景划分为四种类型:

  • Create(创建): 针对需要生成原创、多样化内容的场景,例如诗歌、故事或代码生成。任务对应为文本续写任务,模型需要基于输入文本生成符合语境的延续内容。

  • Read(读取): 涉及在知识密集型场景中回答复杂问题,例如问答、对话和推理任务。任务包括单文档和多文档问答,评估模型在知识检索和理解上的表现。

  • Update(更新): 关注修正和纠正已有文本中的错误或不一致性,例如拼写、语法或事实错误的校正。任务为幻觉修改,模型需要基于检索到的外部内容对原始文本中的错误进行修正。

  • Delete(删除): 涉及从庞大文本中提炼关键信息以生成简洁摘要,例如文本总结或简化。任务为多文档摘要生成,模型需要从多个相关文档中提炼关键信息生成简明摘要。

开源地址:https://github.com/IAAR-Shanghai/CRUD_RAG

  1. CRAG [12]

CRAG 是一个综合的检索增强生成 (RAG) 基准测试集,由 Meta 提出,专门用于评估 RAG 系统在应对事实问答(QA)任务时的性能。CRAG 的设计弥补现有 RAG 数据集在多样性和动态性方面的不足。该基准测试集包含 4,409 个问答对,覆盖五个领域(金融、体育、音乐、电影和开放领域)和八个问题类别(不同维度)。CRAG 还模拟了网络搜索和知识图谱(KG)搜索的环境,通过模拟 API 为每个问答对提供来自搜索引擎和知识图谱的外部信息。

问题类型定义
Simple询问不太可能随着时间的推移而改变的简单事实的问题,例如一个人的出生日期和一本书的作者。
Simple w. Condition询问一些给定条件下的简单事实的问题,例如特定日期的股票价格和导演最近拍摄的特定类型的电影。
Set期望一组实体或对象作为答案的问题(例如,“南半球有哪些大陆? ”)。
Comparison比较两个实体的问题(例如,“谁开始表演更早,阿黛尔还是艾德·希兰? ”)。
Aggregation需要聚合检索结果才能回答的问题(例如,“梅丽尔·斯特里普赢得了多少个奥斯卡奖? ”)。
Multi-hop需要链接多条信息来组成答案的问题(例如,“谁在李安的最新电影中扮演角色? ”)。
Post-processingheavy需要推理或处理检索到的信息以获得答案的问题(例如,“瑟古德·马歇尔担任最高法院法官多少天? ”)。
False Premise带有错误介词或假设的问题(例如,“泰勒·斯威夫特在转向流行音乐之前,她的说唱专辑的名字是什么? ”(泰勒·斯威夫特尚未发行任何说唱专辑))。

框架

  1. RAGAS[3]

RAGAS 是一个专为评估 Retrieval Augmented Generation (RAG) pipelines 而设计的开源框架。RAG 包括三个关键部分:查询、检索到的上下文和生成的回答。因此,RAGAS 关注三个主要评估指标:忠实度(Faithfulness)、答案相关性(Answer Relevance)和上下文相关性(Context Relevance)。忠实度衡量生成的回答是否忠实于提供的上下文;答案相关性评估回答与输入查询的相关性;而上下文相关性则考察检索到的上下文与输入查询的匹配程度。

开源地址:https://github.com/explodinggradients/ragas

  1. ARES[13]

ARES框架只需要数量级很小的一部分人工标注集(用于反映对应的领域内的问题),即可自动生成用于评估测试的问题。具体的判断步骤如下:

  • 通过LLM生成有关语料的Query-Answer序列对

  • 构建用于评估上述三个指标的model:使用上述的序列对分别对一个小的LM进行微调,这里的LM执行的都是判断工作,判断样本属于指标的正例还是反例。

  • 使用评估模型:使用PPI提高评估效果,并根据少部分的人工标注集给出置信区间。

开源地址:stanford-futuredata/ARES (github.com)

  1. AUTO-RAG-EVAL[14]

该框架完全不需要依赖任何人工标注集,能够自动生成用于评估的测试问题,大大降低了评估的成本和时间消耗。通过使用项目反应理论(Item Response Theory, IRT),该方法可以自动优化测试问题集。IRT 通过对测试题目的质量和信息量进行评估,不断剔除对模型能力区分度不高的题目,使得剩下的题目能够更准确地反映模型在特定任务上的表现。在论文中,作者根据不同的认知能力对问题类型进行了划分,采用了布鲁姆修订的分类法(Bloom's Taxonomy)对问题进行分类。不同类型的问题具有不同的认知复杂度,从而在不同的能力水平上能够提供不同的信息量,为评估 RAG 系统提供了更细粒度的评价。不足的是,这里面生成的都是选择题。

开源地址:https://github.com/amazon-science/auto-rag-eval

4. TruLens[15]

TruLens 是由 TruEra 公司开发的一款开源工具,用于帮助用户评估基于大型语言模型 (LLM) 应用程序的质量和有效性。通过使用反馈函数,TruLens 能够以编程方式评估输入、输出和中间结果的质量,从而加快和扩大实验评估的范围。这使得 TruLens 能够应用于多种场景,包括问答系统、检索增强生成(RAG),以及基于agent的应用。和RAGAS一样,也是评估了忠实度、答案相关性和上下文相关性。

开源地址:https://github.com/truera/trulens

  1. RAGEval[16]

RAGEval 是由清华大学、北京师范大学、中国科学院大学和东北大学联合开发的开源框架,专门用于评估检索增强生成(RAG)系统在特定场景下的表现。RAGEval 从少量领域特定文档中总结出一个 schema(模式),捕捉领域内的关键信息,并据此生成不同配置的多样化文档用于后续问题的生成。此外,RAGEval 引入了三个新评估指标,以全面评估 LLM 生成的回答质量,包括:

  • 完整性(Completeness):评估答案是否涵盖了问题的所有关键方面,确保回答的全面性。

  • 幻觉(Hallucination):检测答案中是否包含虚假或不准确的信息,确保答案的真实性。

  • 不相关性(Irrelevance):评估答案中是否包含不相关的信息,确保回答的集中和相关性。

开源地址:https://github.com/OpenBMB/RAGE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拉达曼迪斯II

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值