B站李沐讲论文笔记Transformer

「已注销」

已于 2022-12-23 19:37:26 修改

阅读量786

点赞数

分类专栏：人工智能论文文章标签：论文阅读 transformer 深度学习

于 2022-12-19 19:26:17 首次发布

本文链接：https://blog.csdn.net/qq_39584294/article/details/128376227

版权

文章目录

研一学生笔记，若有看官，笔下留情

作者很多，且，均贡献，顺序随机，再次感叹，同行者的重要性，并且大家都很不计较的样子~nice！
Ashish Vaswani∗
Noam Shazeer∗
Niki Parmar∗
Jakob Uszkoreit∗
Llion Jones∗
Aidan N. Gomez∗ †
Łukasz Kaiser∗
Illia Polosukhin∗ ‡

理论部分：

逐段翻译+感想

摘要

如今，主要的序列转录模型是基于复杂的循环或者卷积神经网络，包括一个编码器和一个解码器，表现性能最好的模型通过注意力机制连接编码器和解码器。（1.论文摘要体现对本领域的了解程度，第一句话介绍了本领域目前情况，不得不说，22年回头看，非常精准。2.序列转录其实就是seqtoseq啦）我们提出一个叫Transformer的简单架构，他完全基于注意力机制，完全省去了循环和卷积（ simple is good）实验在两个机器翻译的任务上，结果表明，这些模型在质量，并行化方面更胜一筹，并且要求更少的训练时间。（摘要第二句，我们做的是什么，他的优点是什么）我们的模型取得了balabala的成绩，超过了现有最佳结果，包括集成学习，提高了 2个 BLEU（一骑绝尘的SOTA了666） 在2014年的英法翻译任务上，8块GPU训练3.5天，得到了最先进的评分41.8，（摘要第三部分，我们的瞩目成绩）这仅仅是文献中最好模型训练代价的一小部分（笑死，这种写作风格真的很搞笑哎，os：没有内涵的意思，只是在朴实无华的列举我的强处==！）通过在大量和有限的训练数据上训练，我们得到Transformer很容易应用到其他任务（当真是一字千金了，没有一个废话，确实，后面还应用到视觉，video等领域。）

引言

循环神经网络，长短期记忆，和带有控制门的循环神经网络，事实上已经在序列模型和转录问题上建立了最优方法，像语言模型和机器翻译，从这以后，许多努力继续推动着循环神经网络和编码解码架构的边界。
循环神经网络通常沿着输入输出序列的典型位置计算因子，在计算过程校准位置，他们生成一个隐藏状态的序列ht，上一个隐藏层ht-1，和输入位置t，这种固定的序列自然除去了训练数据内的并行化，在较长的序列中很重要，因为内存不够限制了样本之间的批处理。近期的工作通过分解的技巧和算力增强在计算效率上取得了至关重要的进步，同时，算力增强也提高了模型表现。然而，序列计算的基础限制仍然存在。
注意力机制已经成为各种任务中，序列模型和转录模型不可分割的一部分，他允许对依赖部分建模，而不用考虑他们输入输出的距离。处理少数情况意外，注意力机制和循环神经网络一起使用。
我们提出了Transformer，一种规避循环神经网络的模型架构，而是完全依赖于注意机制来绘制输入和输出之间的全局依赖关系。Transformer允许明显更高的并行化，并且在8个P100 gpu上训练12小时后，在翻译质量方面可以最优水平。

背景

减少序列计算的目标也构成了扩展神经GPU的基础（？？啥意思）ByteNet等使用循环神经网络作为基础构建块，并行计算所有输入输出位置的隐藏表示，在这些模型中，操作的数量要求与两个输入输出位置的信号相关，随着位置距离增长而增长。ConvS2S是线性增长，ByteNet对数增长。这使学学习远距离的依赖变得困难，在transformer中这被减少到了常量数值的操作数量，尽管，由于平均注意力加权位置而以降低有效分辨率为代价，我们使用多头注意力机制来抵消达到这种效果。（我们研究了像cnn一样的多输出，名为多头注意力，来抵消了这种由于平均注意力造成的低分辨率的影响）
自注意力机制有时候称为intra-attention 是一个联系一个序列不同位置的注意力机制为了计算得到一个编码来代表这个序列，自注意力机制已经在balabal领域应用的非常成功。
端到端内存网络是在一个循环注意力机制上建立的，而不是循环对齐序列，并且已经被证实在简单语言问题回答和语言模型任务上面表现良好。
据我们所知，然而，transformer是第一个转录模型完全依赖自注意力机制来计算他的输入输出表示，而不是使用序列对齐循环或者卷积。