也读领域RAG评估数据生成框架RAGEval:兼看昨日大模型进展早报综合回顾

本文来讲两个方面的工作,一个是昨日大模型进展早报,来简单做个回顾。

另一个是当前RAG评估数据集的一个自动生成框架,思路还蛮有趣的,虽然代码还没开源。

马上立秋了,大家加油。

一、昨日大模型进展早报综合回顾

我们先来看看昨日大模型进展,社区每日一报,文字版及历史早报可见社区共享。过去一天还是出现了许多有意思的工作。

例如,关于关于Text-SQL框架汇总、关于国产sora汇总、关于大模型学习课程、多模态大模型综述总结、 特定场景下的RAG评估数据集生成框架、agent任务编排框架、语音转写模型开源进展等。

此外,我们再来看看RAG的工作,构建一个特定领域的检索增强型生成(RAG)评估数据集面临两个重大挑战

首先,由于这些文档的敏感性质以及分析它们所需的专业知识,收集和注释垂直领域的文档成本极高。

其次,与通常要求模型生成相对简短答案的开放领域问答任务不同,垂直领域答案往往更加全面和详细,这使得评估过程复杂化。

特定场景下的RAG评估数据集生成框架: 《RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework》(https://arxiv.org/pdf/2408.01262) ,生成不同垂直领域的评估数据集,以评估大型语言模型在不同场景下的知识应用能力,整好是评估数据集建设问题,值得大家看看。

从论文的意义上讲,提出了三个新的评估指标,分别是完整性(Completeness)、幻觉(Hallucination)和不相关性(Irrelevance),以细致评估LLMs生成的响应。

在数据集生成流程上,RAGEval通过从种子文档中总结模式,应用配置生成多样化文档,并根据文章和配置构建问答对。

二、特定场景下的RAG评估数据集生成框架:RAGEval具体实现思路

我们可以看看其中的具体实现细节:

RAGEval采用了一个 “模式shcema-配置config-文档doc-QAR-关键点keypoint” 的流程,强调事实信息的利用,并增强了对答案估计的鲁棒性,以提高评估过程的准确性和可靠性。

1、模式总结Schema Summary

在特定领域的情境中,文本通常会遵循一个共同的知识框架,无论它们的风格如何变化。这个框架通过模式S表示,涵盖了文档中的事实信息的总体覆盖范围。

模式包括组织、类型、事件、日期和地点等关键元素,总结了情境的特征信息。

以法律领域为例,其中对应的prompt如下:

为了得出这个模式,利用大型语言模型(LLMs)基于一组种子文本执行归纳推理。 尽管这些种子文本可能具有相同的类型,但它们在风格和具体事实内容上可能会有很大差异。

2、文档生成Document Generation

生成具有丰富事实信息、逻辑一致性和内部一致性的虚拟文本对于创建有效的评估数据集至关重要。

为了实现这一点,首先从第一阶段建立的模式S生成配置C,而不是立即产生文本。

这些配置直接对应于事实信息的类型和内容,作为文本生成的参考和约束,这种方法确保了文档不同部分的信息与配置更加一致。

为了生成这些配置,采用了结合基于规则和基于LLM的方法来为模式元素分配值,一个对应的例子如下:

基于规则的值生成使用程序算法创建或选择值,确保了高准确性、事实一致性和效率,特别是对于像日期或分类信息这样的结构化数据,这种方法特别适用于选项有限或需要严格格式化的模式元素。

作为补充,利用LLM生成更复杂或多样化的内容

LLM在创建多样化和细腻的信息方面表现出色,尤其是对于那些需要自然语言理解或创造力的元素,如详细描述或复杂的关系信息。

这种方法允许生成广泛的高质量、多样化的配置。

例如,在财务报告领域,的配置涵盖了包括“农业”、“航空”和“建筑”在内的众多行业,在文档中,总共有20个不同的业务领域。使用以下策略,将配置C中的事实信息转换为文档D:

将配置细节整合到适合该领域的结构化叙述格式中,纳入特定领域的先验知识以确保准确性和上下文相关性;

对于病历,这涉及到对结构和内容的指导,包括疾病类别,确保包含必要的领域,如“患者信息、病史、检查结果、诊断、治疗计划和随访”。

为了减轻法律文件中的幻觉问题,模型只通过其编号生成对法律条款的引用,确保稍后添加正确的引用。

在财务报告中,向模型提供公司的摘要,以确保连贯性。财务文件通常包含多个章节,因此,使用三个部分:“财务报告、公司治理、环境和社会责任”,以覆盖各个方面。鉴于财务事件的复杂性,手动将配置划分为上述三个部分。**

然后,将这些部分提供给GPT-4o以生成文档的相关部分。这防止了重复的总体摘要并保持了内容流程。最后,这三个部分被连接起来形成一个完整的财务报告。

3、QRA生成 QRA Generation

Utilizing Configurations for Questions and Initial Answers Generation,使用给定的文档D和配置C生成问题-参考-答案(QRA)三元组。

这个阶段的动机是创建一个全面的评估框架,测试信息检索和推理能力的各个方面。

如表6所示,包括七种类型的问题:事实问题、多跳推理问题、摘要问题、多文档问题等。

这种多样化的问题类型设计用于评估语言理解和信息处理的不同方面,输入到GPT-4o模型的内容包括针对每种问题类型的详细说明和几个示例,这些是根据配置量身定制的,这可以使得问题Q和初始答案A更具针对性和准确性。

1)提取参考Extracting References

该步骤的目标是捕捉所有相关的参考资料,全面支持答案。使用构建的问题Q和初始答案A,使用提取提示从文章中提取相关信息片段(参考)R。

在提示中,强调了将答案置于源材料中的重要性,以确保可靠性和可追溯性。这一步通过确保答案得到源文档的充分支持,提高了答案的全面性和准确性。

2)优化答案和参考Optimizing Answers and References

优化答案是确保准确性并与提供的参考R对齐的关键,从而最小化错误信息并增强生成内容的可靠性。

优化过程遵循以下原则:

如果参考R包含初始答案A中没有的内容,会相应地补充答案。

相反,如果初始答案A包含参考R中没有的内容,首先检查文章是否有遗漏的参考。

如果找到了相应的参考,会将它们添加到参考集并保持答案不变。如果没有找到相应的参考,会从答案中移除不相关的内容。

3)生成关键点Generating Keypoints

在的评估框架中,评估答案不仅仅是关于正确性或关键词匹配,而是关于识别回答中包含的关键信息。

为了便于此,从标准答案A中为每个问题Q生成关键点。

为了生成这些关键点,为GPT-4o模型使用了一个预定义的提示,该提示支持中文和英文。

提示是使用上下文学习设计的,提供了跨不同领域和问题类型的关键点提取示例。这包括无法回答的情况,关键点相应地反映出来。

通常,响应被提炼成3-5个关键点,包含不可或缺的事实信息、相关推理和回答问题所必需的最终结论。

通过提取这些关键点,确保的评估基于明确定义和相关的信息,提高了随后度量计算的精确度和可靠性。

总的来说,这个工作实际上更像是一个知识图谱来做RAG评估数据集的一个工作。针对某个领域,先生成特定的shema,然后基于schema,生成对应的结构化的值,然后再根据结构化的值,生成对应的文档,然后最后再依次生成reference等信息,这种思路其实蛮有趣的,但中间过程如何保证生成每一环结果的正确性,很重要。

总结

本文主要讲了两个方面的工作,一个是昨日大模型进展早报,来简单做个回顾。另一个是当前RAG评估数据集的一个自动生成框架,思路还蛮有趣的。

参考文献

1、https://arxiv.org/pdf/2408.01262

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享]👈

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解
  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
      - L1.4.1 知识大模型
      - L1.4.2 生产大模型
      - L1.4.3 模型工程方法论
      - L1.4.4 模型工程实践
    • L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
      - L2.1.1 OpenAI API接口
      - L2.1.2 Python接口接入
      - L2.1.3 BOT工具类框架
      - L2.1.4 代码示例
    • L2.2 Prompt框架
      - L2.2.1 什么是Prompt
      - L2.2.2 Prompt框架应用现状
      - L2.2.3 基于GPTAS的Prompt框架
      - L2.2.4 Prompt框架与Thought
      - L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
      - L2.3.1 流水线工程的概念
      - L2.3.2 流水线工程的优点
      - L2.3.3 流水线工程的应用
    • L2.4 总结与展望
阶段3:AI大模型应用架构实践
  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
      - L3.1.1 Agent模型框架的设计理念
      - L3.1.2 Agent模型框架的核心组件
      - L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
      - L3.2.1 MetaGPT的基本概念
      - L3.2.2 MetaGPT的工作原理
      - L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
      - L3.3.1 ChatGLM的特点
      - L3.3.2 ChatGLM的开发环境
      - L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
      - L3.4.1 LLAMA的特点
      - L3.4.2 LLAMA的开发环境
      - L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景
学习计划:
  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的所有 ⚡️ 大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

全套 《LLM大模型入门+进阶学习资源包↓↓↓ 获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享👈

在这里插入图片描述

  • 27
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值