Transformer 是 RNN:具有线性注意力的快速自回归 Transformer(论文解释)

这篇论文提出了一个创新的线性Transformer模型,该模型比传统Transformer更快,并且为理解Transformer与RNN之间的关系提供了新的视角。该论文的成果对Transformer领域具有重要的意义。 " xTzFJIknh7E,video_aigc_398538,TransCoder:无监督编程语言翻译(论文解读),跨语言代码迁移是一项昂贵且费力的任务。要将代码从一种语言翻译成另一种语言,需要同时精通两种语言。现有的自动工具通常会生成难以理解和复杂的代码。本文将无监督神经机器翻译应用于 Python、C++ 和 Java 的源代码,并且能够在它们之间进行翻译,而无需经过任何监督训练。概要:0:00 - 简介和概述1:15 - 跨编译问题5:55 - 神经机器翻译8:45 - 无监督 NMT12:55 - 通过令牌重叠共享嵌入20:45 - MLM 目标25:30 - 降噪目标30:10 - 反向翻译目标33:00 - 评估数据集37:25 - 结果41:45 - 令牌化42:40 - 共享嵌入43:30 - 人工感知翻译47:25 - 失败案例48:05 - 结论论文:https://arxiv.org/abs/2006.03511摘要:跨编译器,也称为源到源翻译器,是一种将源代码从高级编程语言(如 C++ 或 Python)转换为另一种语言的系统。跨编译器主要用于互操作性,以及将用过时或已弃用语言(例如 COBOL、Python 2)编写的代码库移植到现代语言。它们通常依赖于手工制作的重写规则,应用于源代码抽象语法树。不幸的是,由此产生的翻译通常缺乏可读性,无法遵守目标语言约定,

#ai #注意力 #转换器 #深度学习转换器以两件事而闻名:它们优越的性能和对计算和内存的极高要求。本文根据核函数重新定义了注意力机制,并获得了线性公式,从而降低了这些要求。令人惊讶的是,这种公式还揭示了自回归转换器和RNN之间有趣的联系。大纲:0:00 - 简介和概述1:35 - Softmax 注意力和转换器8:40 - Softmax 注意力的二次复杂度9:40 - 广义注意力机制13:45 - 内核20:40 - 线性注意力25:20 - 实验28:30 - 线性注意力的直觉33:55 - 连接自回归转换器和RNN41:30 - 与RNN连接相关的注意事项46:00 - 更多结果和结论论文:https://arxiv.org/abs/2006.16236网站:https://linear-transformers.com/代码:https://github.com/idiap/fast-transformers
摘要:转换器在多个任务中取得了非凡的性能,但由于它们相对于输入长度的二次复杂度,它们对于非常长的序列来说速度过慢。为了解决这个限制,我们将自注意力表示为内核特征图的线性点积,并利用矩阵乘法的结合律将复杂度从(N2)降低到(N),其中N是序列长度。我们表明,这种公式允许迭代实现,这极大地加速了自回归转换器,并揭示了它们与循环神经网络的关系。我们的线性转换器在性能上与普通转换器相似,并且在非常长的序列的自回归预测方面快了4000倍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YannicKilcher

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值