Focused Transformer: Contrastive Training forContext Scaling

VvCandy_

于 2023-08-07 16:00:04 发布

阅读量297

点赞数

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_35817800/article/details/132078676

版权

文章讨论了在LLM中上下文长度受限的问题，提出FOT方法解决分心问题，通过对比学习改进键值结构。FOT易实现且不改变模型架构，但在大内存需求和分布式训练方面有局限。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

LLM 能够以上下文的方式整合新信息，但由于有效上下文长度限制，这种能力会受到限制。解决这个问题的一种方案是赋予注意力层访问外部存储器的能力，该存储器由键值对组成。然而，随着文档数增加，不相关键增加，导致模型更多地关注不相关键。

分心问题（the distraction issue）指的是链接到不同语义值的键可能重叠，使得它们难以区分。Focused Transformer（FOT）采用受对比学习启发的训练过程来解决这个问题。这种方法增强了键值空间结构，允许扩展上下文长度。

Contribution

1. 指出分心问题是在 Transformer 模型中扩展上下文长度的重大挑战和主要障碍，特别是在多文档场景中。

2. 提出了 FOT，旨在缓解分心问题。FOT包括一个独特的训练目标，它改进了(键、值)结构，允许使用广泛的外部内存和k近邻查找来扩展上下文长度

3. 方法易于实现，并且提供了在不修改现有模型的架构的情况下用内存增强现有模型的好处。在 openLLaMA 3B 和 7B 上进行了验证

Limitations

1. 需要扩大内存。存储超过16M(键，值)对将需要一个分布式多节点系统。

2. 训练需要 batch

Method

Memory attention layers

Memory attention 层 L 在推理期间可以访问外存数据库。L 中的每一层 l 关注局部上下文前面的 key 以及内存中最匹配的 k 个key。内存中的 key 与 query 做内积后排序，使用 kNN 算法检索。内存中会逐渐填充由 l 预先处理的键值对

CrossBatch training procedure

关键思想是：将 l 暴露给来自给定文本的当前和先前的局部上下文的键值对（正），以及来自不相关文本的 d-1 上下文（负），这些用可微分的方式完成。

为了实现这点，本文使用数据管道，每个batch中的元素对应于不同的文本，为每个已经处理过的文本嵌入先前的（cprev）和当前的（ccur）局部上下文

对于 ccur 中的每个文本（Document），创建大小为 d 的由键值对组成的集合，集合元素来自于之前的 positive 局部上下文

博客等级

码龄9年

2
原创

3
点赞

23
收藏

1
粉丝

关注

私信

热门文章

分类专栏

NLP大模型 1篇
项目开发记录

最新评论

DeepSpeedGhat 步骤3详解
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
Improving language models by retrieving from trillions of tokens
CSDN-Ada助手: 非常感谢用户的第三篇博客，标题看起来就很有吸引力！恭喜用户不断创作，希望用户能够继续分享自己的经验和见解。下一步的创作建议，可以考虑探讨如何将这种语言模型的改进应用到实际生活中，或者对这种技术进行更深入的研究，探索更多的可能性。期待用户的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。