评估长上下文大型语言模型

人们竞相追求具有更长上下文窗口的语言模型。但它们的效果如何?我们如何才能知道呢?

欢迎来到雲闪世界

语言模型的上下文窗口在过去几年中一直呈指数级增长

大型语言模型的上下文窗口(即它们可以同时处理的文本量)一直以指数级的速度增长。

2018 年,BERTT5GPT-1等语言模型最多可以接受 512 个 token 作为输入。现在,到 2024 年夏天,这个数字已经跃升至 200 万个 token(在公开的 LLM 中)。但这对我们意味着什么,我们如何评估这些功能日益强大的模型?

大上下文窗口意味着什么?

最近发布的Gemini 1.5 Pro 型号最多可以容纳 200 万个代币。但是 200 万个代币到底意味着什么呢?

如果我们估计 4 个单词大约等于 3 个 token,那么意味着 200 万个 token 几乎可以容纳整个《哈利波特》和《指环王》系列。

(《哈利波特》系列七本书的总字数为1,084,625 字。《指环王》系列七本书的总字数为481,103 字。(1,084,625 + 481,103)* 4 / 3 = 2087637.3。因此,Gemini 的 2M 上下文可以包含整个《哈利波特》和《指环王》系列减去《王者归来》的后半部分。)

   这张图表显示了 Gemini 1.5 的 200 万个上下文窗口可以容纳多少本《哈利波特》和《指环王》书籍。该图部分灵感来自 2024 年 3 月的这张令人惊叹的信息图。该图由作者创建。

这些数字指的是公开模型中可用的上下文窗口。Gemini 1.5 Pro 模型目前公开提供最多 200 万个令牌上下文窗口,但最多可处理 1000 万个令牌。(需完整代码及内容可联系博主

正如一位 Reddit 用户所说,这意味着可以将 1000 篇科学论文放入 Gemini 的 1000 万个上下文窗口中,以创建新颖的研究

这为什么重要?

更大的上下文窗口不仅仅是构建 LLM 的公司相互竞争的一种方式。具有长上下文的模型的应用含义和现实场景有很多。请考虑以下场景:

  • 法律研究:律师可以将整个案件历史、判例和法规输入模型,在几秒钟内获得全面的分析,而无需花费数小时或数天的人工审查。
  • 财务分析:想象一下将多年的财务报告、市场趋势和经济指标输入人工智能,以获得即时、深入的洞察。
  • 医疗诊断:医生可以输入患者的完整病史,包括检查结果、治疗记录和高分辨率医学影像扫描,以便做出更准确的诊断和个性化的治疗方案。
  • 教育:学生可以输入整本教科书和课程材料,获得跨学科的定制解释和联系。

然而,这些用例也引发了担忧。处理大量个人数据的能力如果被滥用,可能会导致前所未有的监控和隐私侵犯。随着这些能力的增长,对强有力的道德准则和保障措施的需求也在增长。

随着上下文窗口越来越长,我们如何评估 LLM?

具有极长上下文窗口的模型是最近才出现的。因此,研究人员试图想出新的方法来评估这些模型的好坏。这些评估旨在对长上下文模型的能力和局限性进行基准测试,并衡量扩大上下文窗口所带来的权衡。

其核心思想是,具有更长输入上下文的模型应该能够执行以前太难或不可能完成的任务。

评估用例

在本文中,我将介绍研究人员评估长上下文模型的三种不同方法:

  1. 从长文档中检索信息
  2. 长文档的复杂分析(推理和总结)
  3. 基于情境的学习,实现“即时”模型训练

注意:这不是一份详尽的清单。有关长上下文基准的全面概述,请参阅Awesome LLM Long Context Modeling Github 页面

1. 从长文档中检索信息

大海捞针”测试由Greg Kamradt提出,是一种用于评估长文本中信息检索能力的常用方法。该方法涉及将不合适的语句(“针”)放置在较长文本片段(“大海捞针”)的不同深度。

大海捞针的例子,将“在旧金山最棒的事情就是在阳光明媚的日子里吃个三明治,坐在多洛雷斯公园里”插入到保罗·格雷厄姆的文章中。图片由作者制作。

该测试衡量法学硕士 (LLM) 在越来越大的背景中定位特定信息的效率。

原始的“大海捞针”图表由Greg Kamradt创建,用于压力测试法学硕士 (LLM) 检索深层信息的能力。通过将不合适的句子(“针”)放置在不同长度的片段(“大海捞针”)的不同深度,可以衡量不同的 (LLM) 定位这些信息的能力。

大海捞针变奏曲

研究人员已经开发出几种变体来测试信息检索的不同方面:

Gemini 1.5 论文介绍了基于视频的“大海捞针”。图片来自Gemini 1.5:解锁数百万个上下文标记的多模态理解(第 110 页)。

局限性和影响

尽管“大海捞针”方法被广泛使用,但它有几个局限性:

  • 这是一项人工任务,可能无法反映现实世界的用例。
  • 它只评估信息查找,而不是推理或理解。
  • 随着上下文窗口的增长,评估“草堆”大小和“针”位置的所有组合的成本变得越来越高。

尽管存在这些缺点,但该测试凸显了长上下文模型的一项关键能力:能够快速从大量数据中搜索和检索信息。这具有重大意义,从提高研究效率到实现前所未有的数据分析水平——甚至可能实现监控。

值得注意的是,这种类型的信息检索不同于检索增强生成(RAG),因为它在单一、广泛的环境中运行,而不是从外部源检索信息。

2. 长文档的复杂分析(推理和总结)

虽然“大海捞针”测试侧重于信息检索,但其他评估则评估法学硕士从大量内容中推理、解释和综合信息的能力。这些评估旨在测试更复杂的推理形式,而不仅仅是精确定位数据位置。

以下是该类别中的几种评估方法:

文学问答任务

书籍是长文档的典型例子。NOVELQA 等基准测试使用最多 200K 个标记长度来测试模型对文学小说进行推理的能力。它包括关于 88 部英语小说(包括公共领域和受版权保护的小说)的人工生成问题。其他数据集(如NoCha 也采用类似的方法。

标题:该图表展示了 NovelQA 数据集中的两个示例问题,来自NovelQA:对超过 200K 个标记的文档进行基准问答

对隐藏相关信息的长文本进行推理

FlenQA通过在较长的、不相关的文本中嵌入相关信息来创建不同长度的多个版本的上下文。这有助于评估 LLM 性能如何随着上下文长度的增加而下降。

这是 FlenQA 中的一个任务的示例,其中相关信息(深红色)嵌入在不相关信息之中。图表来自“相同任务,更多标记:输入长度对大型语言模型推理性能的影响”

领域特定推理

  • 医疗保健:LongHealth基准使用 20 个虚构患者案例(每个 5-7K 字)来测试医学推理。
  • 财务:DocFinQA使用长达 150 页(100K+ 个标记)的财务文件挑战模型。

总结任务

总结长篇文档是法学硕士的一项重要能力,因为它可以让学生快速掌握大量文本中的关键信息,而无需阅读所有内容。这项技能在研究、商业和法律等领域尤其有价值,因为这些领域的专业人士通常需要将大量信息提炼成简明的报告。

然而,评估摘要质量具有挑战性。与简单的信息检索不同,摘要需要对整个背景有深入的理解,并具备识别和综合关键点的能力。什么是“好的”摘要可能是主观的,并且取决于上下文。

当前的评估方法通常依赖于将模型生成的摘要与人工编写的参考文献进行比较,但这种方法存在局限性。它可能无法捕捉到所有有效的摘要策略,并且可能会错过使用不同措辞的语义正确的摘要。

LongBench∞Bench等基准测试试图解决其中的一些挑战。LongBench 包括各种文档类型(政府报告、会议记录、新闻文章)的摘要任务,最多 15K 个单词,而 ∞Bench 则突破了界限,推出了多达 100K 个标记的新颖摘要任务。这些基准测试很有价值,但该领域仍在努力开发更强大的评估方法,以更好地捕捉高质量摘要的细微差别。

3.“即时”模型训练

长上下文模型最酷的应用之一是上下文学习 (ICL) 的扩展能力。ICL 允许模型直接从提示中提供的示例动态学习新任务。借助更大的上下文窗口,我们现在可以包含数百个训练示例,甚至可以包含复杂、冗长的示例,例如摘要任务。

这项功能将改变游戏规则。无需针对特定领域微调模型,人们可以利用 ICL 立即让模型适应新任务。

多次注射ICL

DeepMind 在Many-Shot In-Context Learning方面的工作表明,在提示中包含更多示例可显著提高各种任务的性能。通过将 ICL 扩展到数百或数千个示例,模型可以克服预训练偏差并应对更复杂的挑战。

通过在提示中包含更多示例(或“镜头”),同一个 LLM 可以在许多不同的任务中表现出进步。例如,从提示中的 32 个情绪分析示例增加到 2048 个,LLM 的表现提高了 18.2%。图表来自Many-Shot In-Context Learning

这一原则不仅仅局限于提高性能。Anthropic 在多镜头越狱方面的工作表明,虽然几个示例无法破坏模型的安全护栏,但数百个示例却可以——这凸显了这种方法的威力和潜在风险。

此示例展示了少数几个示例无法让 LLM 生成有害内容,但数十或数百个示例可以让它超越其安全训练。

翻译资源匮乏的语言

长上下文模型对于资源匮乏的语言翻译也特别有价值。Gemini 1.5 技术报告展示了卡拉芒语的这种潜力,这种语言的使用者不到 200 人,网络上的出现率也很低。通过输入 500 页的语法、2000 条双语单词表和 400 个平行句子(共计 25 万个标记),该模型可以翻译甚至转录卡拉芒语。

这种方法也适用于其他资源匮乏的语言,随着提供更多示例,性能也会得到改善。这对于保护和使用濒危语言来说是一项有希望的发展。

讨论

语言模型中,上下文窗口变长的竞争正在加速,上下文窗口大小呈指数级增长。这种增长需要新的评估方法来正确评估这些模型的能力和局限性。

虽然已经出现了许多用于长上下文评估的基准(例如,SCROLLSLongBench∞BENCH),但许多问题仍未得到解答:

  • 扩展的权衡:随着上下文长度的增加,安全性、偏差和指令遵循如何变化?
  • 多语言性能:大多数基准测试都侧重于英语( CLongEval等基准测试除外,它还包括对中文的评估)。与英语相比,其他语言的性能如何随着较长的上下文而变化?
  • 潜在的退化:随着模型处理更多的上下文,某些能力(如编码技能或创造力)是否会受到影响?
  • 现实世界的影响:由于模型可以处理整本书籍、个人历史或低资源语言的综合数据,其伦理和实际后果是什么?

随着 LLM 的上下文窗口不断增长,我们不仅需要了解这些模型能做什么,还需要了解它们的基本特征如何变化。

目前,针对具有越来越大的上下文窗口的模型的竞赛仍将继续。

感谢关注雲闪世界。(亚马逊aws谷歌GCP服务协助解决云计算及产业相关解决方案)

 订阅频道(https://t.me/awsgoogvps_Host)
 TG交流群(t.me/awsgoogvpsHost)

  • 16
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值