扩展LLM上下文长度：提升Transformer模型的潜力

最新推荐文章于 2024-10-10 11:28:02 发布

余靖年Veronica

最新推荐文章于 2024-10-10 11:28:02 发布

阅读量457

点赞数 4

本文链接：https://blog.csdn.net/gitblog_00043/article/details/139056985

版权

扩展LLM上下文长度：提升Transformer模型的潜力

Long-ContextThis repository contains code and tooling for the Abacus.AI LLM Context Expansion project. Also included are evaluation scripts and benchmark tasks that evaluate a model’s information retrieval capabilities with context expansion. We also include key experimental results and instructions for reproducing and building on them.项目地址:https://gitcode.com/gh_mirrors/lo/Long-Context

在构建大型语言模型（LLMs）的过程中，如何编码位置信息是一个关键问题。最近，社区对是否可以将LLMs扩展到更长的上下文环境中表现出浓厚的兴趣。项目“Extending LLM Context Length”正是针对这一挑战的一次深入探索。

项目介绍

该项目基于Llama预训练模型，该模型原生支持2048个token的上下文长度，并采用了RoPE（旋转位置嵌入）编码。研究者进行了一系列实验，尝试通过不同策略增加Llama模型处理上下文的能力。他们不仅分享了实验结果和训练脚本，还提供了最佳性能模型的权重，以供社区成员使用或进一步测试。特别是他们提出的线性缩放方法，在尺度为4和16时表现优异，预计能在高达16K乃至20-24K的上下文长度中保持良好性能。

项目技术分析

项目团队进行了广泛的尝试，包括直接使用基础Llama模型、微调RedPajama数据集、修改RoPE编码等。他们发现，结合RoPE编码的不同变化方式，如线性缩放、频率基的幂次缩放、频率截断以及随机化位置向量，能够有效地增强模型的上下文处理能力。特别值得关注的是，他们在RoPE编码基础上的线性缩放方法在多个实验中展现出最稳定的性能。

此外，他们还实现了xPos论文中描述的方法，引入衰减幅度惩罚项来调整高频频率在长距离上的影响，从而优化长距离性能。

应用场景

本项目适用于需要处理大量上下文的各类自然语言处理任务，如文档检索、开放性问答等。为了评估模型性能，研究者设计了两个任务：基于LMSys数据集的子字符串定位任务和基于Wikipedia的开放式问答任务——WikiQA。其中，WikiQA任务通过精心构造的数据集，确保了对模型长上下文理解能力的全面评估。