论文笔记：Lost in the Middle: How Language Models Use Long Contexts

最新推荐文章于 2024-08-27 23:04:44 发布

UQI-LIUWJ

最新推荐文章于 2024-08-27 23:04:44 发布

阅读量881

点赞数 4

分类专栏：论文笔记文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_40206371/article/details/136644954

版权

282 篇文章 69 订阅

订阅专栏

本文研究了大模型在处理文档问答和键值对索引任务时，发现相关信息处于输入提示开头或结尾时性能较好，而位于中间时性能下降。实验表明，即使使用支持更长上下文的模型，这一现象依然存在。研究还探讨了模型架构、query位置和finetune对性能的影响。

摘要由CSDN通过智能技术生成

Transactions of the Association for Computational Linguistics 2024

1 intro

论文对大模型在长文本情况下的性能做了一系列实验研究，发现了一个有趣的“Lost in the middle”现象：
- 在处理需要识别相关上下文的信息的任务（文档问答、键值对索引）时，大模型对相关信息的位置很敏感
- 当相关的信息在输入prompt的开头或者结尾时，能够取得较好的效果
- 而当相关的信息在prompt中间部分时，性能会显著下降。

在总文档数分别为10、20、30，对应token数约为2K、4K、6K时，均发现相关文档位于prompt的开始或者结尾时，能够取得更好的效果，而相关文档位于中间时，性能下降
那么，如果使用支持更长上下文的模型呢？（gpt-3.5-turbo-16K-0613 VS gpt-3.5-turbo-0613）
- 在这个任务上并未获得显著更优的结果

对于比较优秀的模型，如claude-1.3-100k、claude-1.3，它们在4k、8k、16k的上下文长度下，不管目标key在哪个位置，都能取得接近100%的准确率；
对于差一些的模型，仍然有相似的现象，目标key位于中间位置时，取得较差的结果

是否和LLM的模型架构相关？Decoder-only/Encoder-Decoder等架构的LLM是否会有不同的表现？
- ——>之前的实验用的模型都是Decoder-only的架构，于是论文增加了两种Encoder-Decoder模型（flan-t5-xxl、flan-ul2）
- 发现还是类似的现象