每日论文20240219：Attention is all you need

Undefined游侠

于 2024-02-21 08:09:12 发布

阅读量1k

点赞数 26

文章标签： transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19859865/article/details/136168234

版权

提到大模型，Transformer是最核心的创新点，讲解Transformer的博文不少，但是，我还是想从个人视角，基于Attention is all you need这篇论文，讲解Transformer。

摘要

作者提到，针对sequence transduction的任务，CNN和RNN还是主要的模型组成部分，而目前性能最好的方案添加了attention机制。作者进一步提出了transoformer，一个完全基于注意力机制的由编码器，解码器组成的单一网络。

证明这一网络架构优越性的就是它在WMT 2014 English-to-French translation （英法翻译）任务中，刷新了最好成绩。

读完abstract，我的认知是，这篇论文不是提出了attention机制，而是证明不依赖CNN，RNN，基于attention机制构造网络，单枪匹马，可以取得令人震惊的效果。

介绍

RNN，LSTM是机器翻译领域常用的网络结构，但是RNN无法有效的支持并行化，这让它处理长序列的句子非常有挑战。此前，attention机制在RNN网络中充当着辅助的角色，但是，本文证明，它可以“独档一面”。

背景

针对RNN的序列计算量太大的问题，一些工作尝试通过CNN解决，但是随着序列长度的增加，还是遇到序列距离较远，计算量大，相互关系的学习能力受限。但是，在transformer中，计算量被降低为常数。

In the Transformer this is reduced to a constant number of operations, albeit at the cost of reduced effective resolution due to averaging attention-weighted positions,

然后，作者引出self-attention的介绍

Self-attention, sometimes called intra-attention is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence.

接着再强调一下transformer有多牛。

To the best of our knowledge, however, the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequencealigned RNNs or convolution. In the following sections, we w

这里其实有点奇怪，难道在作者心中，self-attetnion的重要性远高于multi-head attention？

Model architecture

关于模型结构的介绍，作者强调transformer依旧遵循encoder-decoder的设计框架，将输入序列进行映射成连续序列，然后再解码生成新的序列，并且还会基于此前生成的符号，作为生成下一输出的额外输入。

model is auto-regressive [10], consuming the previously generated symbols as additional input when generating the next.

Transformer由若干个自注意力层和全连接层组成。

在这张图中，通过input embedding，词转换为向量，

解码器和编码器

编码器由6个相同的层组成，每个层包含2个子层，其中，第一层使用了多头注意力机制，第二个是全连接层 (fully connected feed-forward network)，此外，进过残差链接后，layernrom被使用。

batch norm: 将特定特征在mini batch中的均值和方差调整为0。而layernorm是吧每一个样本调整为均值为0，方差为1。

在解码器中，可以看到相比于编码器，多了一个Masked-multi-head attention模块，它的作用在于隐藏未来信息，并对于编码器输出进行多头注意力操作。

scaled-dot-product attention

关于这个注意力机制的解释，最好的就是这个公式，针对每一个query，通过和Key进行点乘，得到每一个value的权重，再和value相乘，最后的输出是多个value的混合，混合中每个value的比例取决于query和Key的相似度。

当然，上述的过程中没有softmax以及dk的介绍，但这对应的也都是公式化的变换。总之，该过程，实际上只使用了两次矩阵乘法。

其中，这里作者之所以称这种方法为scaled。就是因为它除以了dk。

此外，为了保证t时刻的query只和此前时刻的key建立联系，我们使用了mask来屏蔽t时刻之后的key。

TODO： add 　image

Mulit-head attention

值得注意的是，上述流程其实没有很多可以学习的参数，因此参考卷积层多个通道，这里设计了多头注意力机制，通过进行QKV的线性映射，我们可以在更丰富的向量空间进行参数学习。

在transoformer中，包含了三个多头注意力模块，分别位于编码器，解码器，以及编码器和解码器的连接处。

其中编码器和解码器的注意力模块中，QKV一致。而在编码器和解码器的连接处，key和value来自编码器，query来自解码器的输入。它的目的就是有效获取编码器中的输出。

RNN和transoformer的处理时序信息的方式。

positional encoding

为了保证网络把输入的相对位置关系，我们需要将位置信息输入网络。通过不同频率的sin和cos信息，我们进行位置编码。

为什么使用自注意力机制？

作者提到使用自注意力机制的三个原因。一是自注意力机制每一层的计算复杂度较小，二是自注意力机制有利于序列操作的并行化。三是，长序列中元素相互关系连接的路径较短。而学习长序列的相互依赖关系是这类问题的关键。

Undefined游侠

博客等级

码龄11年

91
原创

527
点赞

530
收藏

394
粉丝

关注

私信

热门文章

分类专栏

最新评论

Resnet20代码review
Sarah_Wang2: 您好，想请问下代码中的_make_layer是怎样的呀，谢谢
数据结构与算法2 哈希表
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
EfficientAI Lab：大模型AWQ量化
weixin_46656063: 为什么做这个Scale操作呢？其实是为了减少量化损失，对于普通的权重量化，损失一般在于Round操作的舍入误差，一般浮点数的舍入值在0~0.5，平均误差就是0.25。而先scale再量化的公式如下，一般来说在对应的salient weight row乘上因子s并不会影响weight的极值，那么，而Round误差一般也是不变的，那么下式的Err相比于原先的Err会多出一个1/s，那么量化误差就变低。
Swin-Transformer论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
VIT论文阅读： A Image is Worth 16x16 Words
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。