本文是LLM系列文章,针对《Long-context LLMs Struggle with Long In-context Learning》的翻译。
摘要
大型语言模型(LLM)在处理超过32Ktoken的长序列方面取得了重大进展。然而,他们的表现评估在很大程度上局限于困惑和合成任务等指标,这些指标可能无法完全反映他们在更微妙的现实世界场景中的能力。本研究引入了一个专门的基准(LongICLBeach),专注于极端标签分类领域内的长时间上下文学习。我们精心选择了六个数据集,标签范围从28到174个类,涵盖了从2K到50Ktoken的不同输入(小样本演示)长度。我们的基准测试要求LLM理解整个输入,以识别大量的标签空间,从而做出正确的预测。我们根据基准评估了13个长上下文LLM。我们发现,通过有效利用长上下文窗口,长上下文LLM在演示长度较短的挑战性较小的任务上表现相对较好。然而,在具有174个标签的最具挑战性的任务Discovery上,所有LLM都很难理解任务定义,因此性能接近于零。这表明当前LLM在处理和理解长的、上下文丰富的序列方面存在显著差距。进一步的分析揭示了模型倾向于对序列末尾出现的标签进行预测。他们在长序列中推理多个片段的能力还有待提高。我们的研究表明,对现有的LLM来说,长时间的上下文理解和推理仍然是一项具有挑战性的任务。我们相信,LongICLBa