LongNet: Scaling Transformers to 1,000,000,000 Tokens

DeepBERT

于 2023-07-12 16:50:40 发布

阅读量465

点赞数

文章标签： transformer 自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/emphmeral/article/details/131685193

版权

LongNet实现10亿token的关键在于提出了dilated attention机制。

具体来说，dilated attention与标准attention的主要区别在于:

1. Dilated attention的注意力矩阵不是全连接的，而是按距离进行了稀疏化。即只允许token与距离其固定步长(称为dilation)的其他token进行attention。

举一个例子：

假设我们有一个序列，长度为8个token:

[x1, x2, x3, x4, x5, x6, x7, x8]

标准的self-attention会计算每个token与所有其他token之间的attention。

而dilated attention假设dilation factor设置为:1，2，4。

则x1会attend到:
x1自己、x2、x5

x2会attend到:
x2自己、x3、x6

x3会attend到:
x3自己、x4、x7

x4会attend到:
x4自己、x5、x8

以此类推。

可以看出，dilated attention通过设定dilation factor的疏密，控制了每个token可以attend的范围。

近距离有更密集的interaction,远距离变得更稀疏。但由于dilation factor呈指数级增长,仍然保证了全局建模能力。这种机制降低了计算量,同时保持了Transformer的表达能力。

2. 随着距离的增大，dilation也指数级增大，从而实现了对数复杂度。例如，dilation可以设置为1，2，4，8等等。

3. 通过这种方式，近距离的token可以高效地建模局部依赖，远距离的token可以捕捉全局依赖，实现了高效的长距离建模。

4.Dilated attention的注意力矩阵可以高效存储并实现快速 querying。

5.可以无缝地取代标准self-attention，并配合存在的优化技术，如局部注意力、稀疏注意力等。

6.可以与分布式训练无缝衔接，不同device处理矩阵的不同部分。

ref：GitHub - kyegomez/LongNet: Implementation of plug in and play Attention from "LongNet: Scaling Transformers to 1,000,000,000 Tokens"

https://arxiv.org/abs/2307.02486

博客等级

码龄5年

8
原创

22
点赞

44
收藏

17
粉丝

关注

私信

热门文章

分类专栏

NLP 3篇

最新评论

交叉熵损失
DeepBERT: 将logits_softmax取log 改为将logits_softmax取-log
交叉熵损失
CSDN-Ada助手: 恭喜您撰写了关于“交叉熵损失”的博客！您对这个主题进行了深入的探讨，让我受益匪浅。希望您能继续分享关于机器学习和深度学习的知识，也许下一篇博客可以探讨一下如何在实际项目中应用交叉熵损失函数，或者是与其他损失函数的比较分析。谢谢您的分享，期待您更多的精彩内容！
RAGAS
CSDN-Ada助手: “恭喜你写了第8篇博客！RAGAS这个标题很有趣，我期待看到你更多关于RAGAS的内容。接下来，也许可以尝试添加一些音乐或视频元素，让读者更好地体验RAGAS的魅力。继续加油！”
LongNet: Scaling Transformers to 1,000,000,000 Tokens
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题“LongNet: Scaling Transformers to 1,000,000,000 Tokens”非常吸引人。您的研究对于将Transformer模型扩展到如此庞大的1,000,000,000个标记是非常令人印象深刻的。您的工作为我们理解和应用Transformer模型的可扩展性提供了重要的见解。在接下来的创作中，我想提出一点建议。考虑到您的研究成果，也许您可以探索如何进一步优化模型的训练和推断效率，以应对更大规模的文本任务。此外，您也可以考虑探索Transformer模型在其他领域的应用，如自然语言处理、计算机视觉等。尽管您已经取得了很大的成就，但我相信您在这些领域中仍然能够有所贡献。再次恭喜您的连续创作，并期待您未来更多的博客分享！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。