Transformer 是 RNN：具有线性注意力的快速自回归 Transformer（论文解释）

YannicKilcher

于 2024-08-16 21:26:12 发布

阅读量227

点赞数 4

文章标签： transformer fastapi

本文链接：https://blog.csdn.net/YannicKilcher/article/details/141270096

版权

这篇论文提出了一个创新的线性Transformer模型，该模型比传统Transformer更快，并且为理解Transformer与RNN之间的关系提供了新的视角。该论文的成果对Transformer领域具有重要的意义。 " xTzFJIknh7E,video_aigc_398538,TransCoder：无监督编程语言翻译（论文解读）,跨语言代码迁移是一项昂贵且费力的任务。要将代码从一种语言翻译成另一种语言，需要同时精通两种语言。现有的自动工具通常会生成难以理解和复杂的代码。本文将无监督神经机器翻译应用于 Python、C++ 和 Java 的源代码，并且能够在它们之间进行翻译，而无需经过任何监督训练。概要：0:00 - 简介和概述1:15 - 跨编译问题5:55 - 神经机器翻译8:45 - 无监督 NMT12:55 - 通过令牌重叠共享嵌入20:45 - MLM 目标25:30 - 降噪目标30:10 - 反向翻译目标33:00 - 评估数据集37:25 - 结果41:45 - 令牌化42:40 - 共享嵌入43:30 - 人工感知翻译47:25 - 失败案例48:05 - 结论论文：https://arxiv.org/abs/2006.03511摘要：跨编译器，也称为源到源翻译器，是一种将源代码从高级编程语言（如 C++ 或 Python）转换为另一种语言的系统。跨编译器主要用于互操作性，以及将用过时或已弃用语言（例如 COBOL、Python 2）编写的代码库移植到现代语言。它们通常依赖于手工制作的重写规则，应用于源代码抽象语法树。不幸的是，由此产生的翻译通常缺乏可读性，无法遵守目标语言约定，

#ai #注意力 #转换器 #深度学习转换器以两件事而闻名：它们优越的性能和对计算和内存的极高要求。本文根据核函数重新定义了注意力机制，并获得了线性公式，从而降低了这些要求。令人惊讶的是，这种公式还揭示了自回归转换器和RNN之间有趣的联系。大纲：0:00 - 简介和概述1:35 - Softmax 注意力和转换器8:40 - Softmax 注意力的二次复杂度9:40 - 广义注意力机制13:45 - 内核20:40 - 线性注意力25:20 - 实验28:30 - 线性注意力的直觉33:55 - 连接自回归转换器和RNN41:30 - 与RNN连接相关的注意事项46:00 - 更多结果和结论论文：https://arxiv.org/abs/2006.16236网站：https://linear-transformers.com/代码：https://github.com/idiap/fast-transformers
摘要：转换器在多个任务中取得了非凡的性能，但由于它们相对于输入长度的二次复杂度，它们对于非常长的序列来说速度过慢。为了解决这个限制，我们将自注意力表示为内核特征图的线性点积，并利用矩阵乘法的结合律将复杂度从(N2)降低到(N)，其中N是序列长度。我们表明，这种公式允许迭代实现，这极大地加速了自回归转换器，并揭示了它们与循环神经网络的关系。我们的线性转换器在性能上与普通转换器相似，并且在非常长的序列的自回归预测方面快了4000倍。