SummHay：长文本LLM和RAG系统评估新基准

最新推荐文章于 2024-10-17 18:58:27 发布

AIGC大模型吱屋猪

最新推荐文章于 2024-10-17 18:58:27 发布

阅读量1k

点赞数 23

文章标签：数据库产品经理人工智能百度 AI-native 自然语言处理机器学习

本文链接：https://blog.csdn.net/mama19971023/article/details/140993238

版权

Salesforce AI 研究人员推出了 SummHay，这是一个用于评估大型语言模型和检索增强生成系统在长文本摘要能力的全新基准测试，旨在解决当前评估方法的不足并推动该领域的进一步发展。

论文介绍

人工智能中的自然语言处理 (NLP) 专注于使机器能够理解和生成人类语言。这个领域涵盖了各种任务，包括语言翻译、情感分析和文本摘要。近年来，该领域取得了重大进展，导致了能够处理大量文本的大型语言模型 (LLM) 的发展。这些进步为诸如长上下文摘要和检索增强生成 (RAG) 等复杂任务开辟了可能性。

大型语言模型在需要处理长上下文的任务上的性能评估是 NLP 面临的主要挑战之一。传统的任务，例如 Needle-in-a-Haystack，没有提供区分最新模型能力所需的复杂性。此外，由于需要高质量的参考摘要和可靠的自动指标，评估这些任务的输出质量具有挑战性。评估方法的这种差距阻碍了对现代 LLM 的准确评估。

现有的评估摘要性能的方法通常侧重于短输入、单文档设置。这些方法严重依赖于低质量的参考摘要，这些摘要与人类判断的相关性很差。尽管存在一些针对长上下文模型的基准测试，例如 Needle-in-a-Haystack 和书籍摘要，但它们需要充分测试最先进的 LLM 的全部功能。这种限制突出了对更全面、更可靠的评估方法的需求。

Salesforce AI Research 的研究人员引入了一种名为“Summary of a Haystack”（SummHay）任务的新型评估方法。该方法旨在更有效地评估长上下文模型和 RAG 系统。研究人员创建了文档的合成 Haystacks，确保在这些文档中重复出现特定的见解。SummHay 任务要求系统处理这些 Haystacks，生成准确涵盖相关见解的摘要，并引用源文档。这种方法为评估提供了一个可重复且全面的框架。

该方法涉及几个详细的步骤。首先，研究人员会生成关于特定主题的文档 Haystacks，确保某些见解在这些文档中重复出现。每个 Haystack 通常包含大约 100 个文档，总计大约 100,000 个标记。这些文档经过精心设计，包含归类为各种子主题的特定见解。例如，子主题可能包含关于考试准备主题中的学习技巧和压力管理，每个子主题都扩展为不同的见解。

生成 Haystacks 后，SummHay 任务被构建为以查询为中心的摘要任务。系统会收到与子主题相关的查询，并且必须以项目符号格式生成摘要。每个摘要都必须涵盖相关的见解，并准确引用源文档。然后，评估协议会从两个主要方面评估摘要：预期见解的覆盖率和引用的质量。这种严格的过程确保了评估的高度可重复性和准确性。

关于性能，研究团队对 10 个 LLM 和 50 个 RAG 系统进行了大规模评估。他们的研究结果表明，SummHay 任务对当前系统来说仍然是一个重大挑战。例如，即使为系统提供了文档相关性的 oracle 信号，它们在联合分数上也落后于人类表现 10 多个百分点。具体来说，像 GPT-4o 和 Claude 3 Opus 这样的长上下文 LLM 在没有检索器的情况下，在 SummHay 上的得分低于 20%。该研究还强调了 RAG 系统和长上下文模型之间的权衡。RAG 系统通常以牺牲洞察力覆盖面为代价来提高引用质量。

性能评估表明，当前模型难以达到人类的表现水平。例如，当使用 Cohere 的 Rerank3 等高级 RAG 组件时，SummHay 任务的端到端性能显示出实质性改进。然而，即使有这些增强功能，像 Claude 3 Opus 和 GPT-4o 这样的模型也只能在联合得分上达到 36% 左右，远低于估计的人类表现 56%。这种差距凸显了该领域需要进一步改进。

总之，Salesforce AI Research 进行的研究解决了评估长上下文 LLM 和 RAG 系统方面的关键差距。SummHay 基准提供了一个强大的框架，用于评估这些系统的功能，突出了重大挑战和需要改进的领域。尽管与人类基准相比，当前系统的性能不佳，但这项研究为未来的发展铺平了道路，这些发展最终可能在长上下文摘要方面达到或超过人类的表现。

论文下载

论文地址：https://arxiv.org/abs/2407.01370

Github地址：https://github.com/salesforce/summary-of-a-haystack

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享]👈

在这里插入图片描述
由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述