大模型长文本阅读能力如何评估?

在这里插入图片描述
原文链接

长文本处理能力的对LLMs的重要性是显而易见的。在2023年初,即便是当时最先进的GPT-3.5,其上下文长度也仅限于2k,然而今日,128k的上下文长度已经成为衡量模型技术先进性的重要标志之一。那你知道LLMs的长文本阅读能力如何评估吗?

1 LongBench测评

LongBench是首个双语(中文和英文)、多任务、综合评估大型语言模型长上下文理解能力的基准测试,以更全面地评估大型模型在长上下文上的多语言能力。LongBench由六大类二十一个不同任务组成(包括 14 个英文任务、5 个中文任务和 2 个代码任务,大多数任务的平均长度在 5k 到 15k 之间,总共 4,750 个测试数据),涵盖单文档QA、多文档QA、摘要、小样本学习、合成任务和代码补全等关键长文本应用场景。样例如下:

{
    "input": "The input/command for the task, usually short, such as questions in QA, queries in Few-shot tasks, etc",
    "context": "The long context required for the task, such as documents, cross-file code, few-shot examples in Few-shot tasks",
    "answers": "A List of all true answers",
    "length": "Total length of the first three items (counted in characters for Chinese and words for English)",
    "dataset": "The name of the dataset to which this piece of data belongs",
    "language": "The language of this piece of data",
    "all_classes": "All categories in classification tasks, null for non-classification tasks",
    "_id": "Random id for each piece of data"
}

地址:[https://huggingface.co/datasets/THUDM/LongBench](https://huggingface.co/datasets/THUDM/LongBench)

2 Retrieval Tasks

此类方法最经典的一种测评方法叫做大海捞针(Needle test)实验,核心思想为将需要召回的重要信息置于不同长度的噪音文本的不同位置中(文本的开头、中间或结尾),而模型则被要求找到那段插入的重要信息。然后观察模型是否能够准确地从文本中提取出这个隐藏的句子,主要评测了模型从长文本中定位与召回关键信息的能力。

大海捞针实验

Needle test通过控制噪音文本的长度与信息插入的位置,来测试模型对不同context length的性能,与验证是否存在lost in the middle的现象。

横轴代表context length,纵轴表示插入深度

许多Long context benchmark中的检索任务均给予此设计,区别仅有插入信息复杂度的区别。

但在许多现实任务中,模型并不是从一堆无关噪音里寻找关键信息;相反,真实输入中常常包含许多正确答案的干扰项。根据这一思想,出现了改进版的加入干扰项的Needle test。

干扰选项

总结

  1. 目前大模型上下文的阅读理解能力提升迅速,各大厂也都在积极整理数据集,类似LongBench的长文本测评数据集还有InfiniteBench、RULER等。
  2. 第二类思路就是大海捞针,在没有标准验证集的情况下可以自己造数据集,因为可以自己找不相关文本并根据自己插入的文本生成相应问题。

原文链接

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值