![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
LLM-长序列
文章平均质量分 94
LLM-长序列
nopSled
一周一更
展开
-
EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS翻译
大型语言模型 (LLM) 正变得无处不在,为许多自然语言处理应用提供支持,例如对话系统、文档摘要、代码补全和问答。为了充分发挥预训练LLM的潜力,他们应该能够高效、准确地执行长序列生成。例如,理想的 ChatBot 助手可以稳定地处理最近一整天的对话内容。然而,LLM 很难推广到比预训练更长的序列长度,例如 Llama-2的 4K。原因是LLM在预训练期间受到的注意力窗口的限制。尽管付出了大量努力来扩大此窗口大小并提高长输入的训练和推理效率,但可接受的序列长度本质上仍然是有限的,这不允许持久部署。翻译 2023-10-07 20:33:24 · 206 阅读 · 0 评论 -
LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS翻译
大型语言模型 (LLM) 通常使用预定义的上下文大小进行训练,例如 LLaMA 为 2048 个token,LLaMA2 为 4096 个token。然而,预定义的大小限制了LLM在许多应用中的应用,例如总结长文档或回答长问题。为了解决这个限制,最近的一些工作对LLM进行了训练或微调以适应更长的上下文。然而,使用长序列从头开始训练 LLM 会带来计算挑战,并且对现有预训练的 LLM 进行微调也相当昂贵。翻译 2023-10-05 03:38:48 · 429 阅读 · 0 评论 -
YaRN: Efficient Context Window Extension of Large Language Models翻译
基于 Transformer 的大型语言模型 (LLM) 已表现出上下文学习 (ICL) 的强大能力,并且已成为许多自然语言处理 (NLP) 任务的几乎普遍的选择。Transformer 的自注意力机制使得训练高度并行化,允许以分布式方式处理长序列。LLM 训练的序列长度称为上下文窗口。Transformer 的上下文窗口直接决定了可以提供样例的空间数量,从而限制了其 ICL 能力。然而,如果模型的上下文窗口有限,则为模型提供可执行 ICL 的鲁棒样例的空间就较小。翻译 2023-09-17 20:46:08 · 810 阅读 · 0 评论 -
Giraffe: Adventures in Expanding Context Lengths in LLMs翻译
近年来,Transformer 凭借其灵活性和在超大数据集上训练的适应性,已成为各种自然语言建模任务中的主要神经网络结构。随后,对于这些神经网络采用了一个流行术语,即“大语言模型”(LLM)——“大”指的是训练数据集大小及其参数数量(实际上,还有相关的训练和环境成本)。标准transformer架构的一个关键要素是其对输入序列的顺序不敏感。注意力操作是一种类似集合的操作,其中元素的位置并不重要。然而,序列中元素的顺序对于许多任务(例如解析自然语言、编码、预测等)至关重要。翻译 2023-09-03 20:09:38 · 183 阅读 · 0 评论 -
Focused Transformer: Contrastive Training for Context Scaling翻译
语言模型已成为多个领域取得大幅进步的催化剂,包括自然语言处理,代码生成,量化推理和定理证明。语言模型的主要挑战之一是有效地纳入了广泛的新知识。对模型进行微调的常见操作不仅需要密集的资源和复杂的设计,而且总是无法清楚地表明如何合并新知识。例如,对诸如“Alice in Wonderland”之类的文本进行微调并不能使模型能够回答有关故事本身的问题,而是训练模型以预测下一个token或完整的句子。一个有希望的替代方案,就是将新知识纳入上下文而无需训练,但是这种方式是受模型有效上下文长度的限制。翻译 2023-07-17 15:30:39 · 453 阅读 · 0 评论 -
EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION翻译
大型语言模型(LLM)通常带有预定义的上下文窗口大小。例如,对LLaMA模型的输入必须小于2048个token。在诸如进行长对话,长文档摘要或执行长期计划之类的应用中,这种预定义的上下文窗口限制经常无法满足要求。对于这些应用,首选具有更长上下文窗口的LLM。但是,从头训练具有较长上下文窗口的LLM需要大量资源。这自然会导致一个问题:我们是否可以扩展现有预训练LLM的上下文窗口?一种直接的方法是用更长的上下文窗口微调现有的预训练Transformer。翻译 2023-07-05 15:29:08 · 533 阅读 · 0 评论