对增加LLaMA 3 上下文长度技术的猜测

灿烂李

于 2024-04-24 17:29:41 发布

阅读量1k

点赞数 3

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ermu114/article/details/138165018

版权

AI苏妲己：

在许多应用场景中，如长对话、长文档摘要或长期计划执行等，大语言模型能够支持较长的上下文窗口是非常理想的。以一次处理约50页书籍内容为例，通常需要模型支持32K个token的上下文长度。目前，主流的大语言模型通常提供100K和200K参数量级的版本，以适应这些需求。然而，最新推出的LLaMA 3 模型的上下文长度仅为8K，在这方面显得有些不足。

从头开始训练一个具有超长上下文窗口的大语言模型通常需要巨大的算力和资金投入。这不禁让我们思考:有没有一种方法能够在不从头训练的情况下，扩展现有预训练语言模型的上下文窗口呢？RoPE(Rotary Position Embedding)位置编码技术可能是一个潜在的解决方案。

RoPE是一种位置编码技术，它通过旋转位置编码，使得Transformer模型能够在更长的上下文中捕获位置信息。与传统的绝对位置编码不同，RoPE引入了旋转矩阵，将位置信息编码为相对关系，从而使模型能够处理任意长度的序列。

为了利用RoPE增加预训练语言模型的上下文长度，我们可以采取以下步骤:

在预训练模型的基础上，将原有的绝对位置编码替换为ROPE编码。这一步不需要重新训练模型，只需要调整位置编码的计算方式。调整模型的输入流水线，以支持更长的序列长度。这可能涉及到对输入数据的分批处理、注意力掩码的调整等。微调模型在下游任务上的性能。由于位置编码的改变，模型在处理长序列时的行为可能会有所不同。因此，我们需要在

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

灿烂李 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。