Long-context LLMs Struggle with Long In-context Learning

最新推荐文章于 2025-06-11 09:49:44 发布

UnknownBody

最新推荐文章于 2025-06-11 09:49:44 发布

阅读量244

点赞数 4

分类专栏： LLM Daily LLM context 文章标签：人工智能语言模型

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/138999495

版权

LLM Daily 同时被 2 个专栏收录

1271 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM context

31 篇文章

订阅专栏

本文研究发现，尽管大型语言模型在处理长序列上有进步，但在处理超过32Ktoken的极端标签分类任务时，其理解力和预测准确性显著下降。在LongICLBeach基准测试中，所有LLM在最具挑战性的任务上表现不佳，揭示了现有LLM在长上下文理解和推理上的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《Long-context LLMs Struggle with Long In-context Learning》的翻译。

摘要

大型语言模型（LLM）在处理超过32Ktoken的长序列方面取得了重大进展。然而，他们的表现评估在很大程度上局限于困惑和合成任务等指标，这些指标可能无法完全反映他们在更微妙的现实世界场景中的能力。本研究引入了一个专门的基准（LongICLBeach），专注于极端标签分类领域内的长时间上下文学习。我们精心选择了六个数据集，标签范围从28到174个类，涵盖了从2K到50Ktoken的不同输入（小样本演示）长度。我们的基准测试要求LLM理解整个输入，以识别大量的标签空间，从而做出正确的预测。我们根据基准评估了13个长上下文LLM。我们发现，通过有效利用长上下文窗口，长上下文LLM在演示长度较短的挑战性较小的任务上表现相对较好。然而，在具有174个标签的最具挑战性的任务Discovery上，所有LLM都很难理解任务定义，因此性能接近于零。这表明当前LLM在处理和理解长的、上下文丰富的序列方面存在显著差距。进一步的分析揭示了模型倾向于对序列末尾出现的标签进行预测。他们在长序列中推理多个片段的能力还有待提高。我们的研究表明，对现有的LLM来说，长时间的上下文理解和推理仍然是一项具有挑战性的任务。我们相信，LongICLBa