🌌 长文本生成的困境:当AI在信息洪流中迷失
在人工智能领域,大型语言模型(LLM)如同拥有无限记忆的超级读者,能轻松消化整座图书馆的藏书。但当被要求撰写万字论文时,这些"博学者"往往只能产出不足两千字的短文——这就像让美食家品尝满汉全席后,只能复述前菜和甜点的味道。更令人困扰的是,当输入文本超过8000词时,模型会像在图书馆迷路的读者,对"中间书架"的内容视而不见,这种现象被形象地称为"中间丢失"(Lost-in-the-Middle)。
北京航空航天大学团队的最新研究揭示了这一困境:现有长文本生成方法多聚焦于短输入→长输出场景,而真实世界中大量存在的长输入→长输出任务(如基于多篇论文撰写综述、分析海量日志生成报告)却缺乏系统性的评估基准。就像要求厨师根据整本菜谱创作新菜品,现有工具难以同时处理复杂的原料组合与创新要求。
🧩 破局之道:LONGINOUTBENCH基准的诞生
研究团队打造的LONGINOUTBENCH基准,如同为AI打造的"信息马拉松"赛道。该基准包含: