每日论文20240219:Attention is all you need

提到大模型,Transformer是最核心的创新点,讲解Transformer的博文不少,但是,我还是想从个人视角,基于Attention is all you need这篇论文,讲解Transformer。

摘要

作者提到,针对sequence transduction的任务,CNN和RNN还是主要的模型组成部分,而目前性能最好的方案添加了attention机制。 作者进一步提出了transoformer,一个完全基于注意力机制的由编码器,解码器组成的单一网络。

证明这一网络架构优越性的就是它在WMT 2014 English-to-French translation (英法翻译)任务中,刷新了最好成绩。

读完abstract,我的认知是,这篇论文不是提出了attention机制,而是证明不依赖CNN,RNN,基于attention机制构造网络,单枪匹马,可以取得令人震惊的效果。

介绍

RNN,LSTM是机器翻译领域常用的网络结构,但是RNN无法有效的支持并行化,这让它处理长序列的句子非常有挑战。此前,attention机制在RNN网络中充当着辅助的角色,但是,本文证明,它可以“独档一面”。

背景

针对RNN的序列计算量太大的问题,一些工作尝试通过CNN解决,但是随着序列长度的增加,还是遇到序列距离较远,计算量大,相互关系的学习能力受限。但是,在transformer中,计算量被降低为常数。

In the Transformer this is reduced to a constant number of operations, albeit at the cost of reduced effective resolution due to averaging attention-weighted positions,

然后,作者引出self-attention的介绍

Self-attention, sometimes called intra-attention is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence.

接着再强调一下transformer有多牛。

To the best of our knowledge, however, the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequencealigned RNNs or convolution. In the following sections, we w

这里其实有点奇怪,难道在作者心中,self-attetnion的重要性远高于multi-head attention?

Model architecture

关于模型结构的介绍,作者强调transformer依旧遵循encoder-decoder的设计框架,将输入序列进行映射成连续序列,然后再解码生成新的序列,并且还会基于此前生成的符号,作为生成下一输出的额外输入。

model is auto-regressive [10], consuming the previously generated symbols as additional input when generating the next.

Transformer由若干个自注意力层和全连接层组成。

在这张图中,通过input embedding,词转换为向量,

解码器和编码器

编码器由6个相同的层组成,每个层包含2个子层,其中,第一层使用了多头注意力机制,第二个是全连接层 (fully connected feed-forward network), 此外,进过残差链接后,layernrom被使用。

batch norm:   将特定特征在mini batch中的均值和方差调整为0。 而layernorm是吧每一个样本调整为均值为0,方差为1。

在解码器中,可以看到相比于编码器,多了一个Masked-multi-head attention模块,它的作用在于隐藏未来信息,并对于编码器输出进行多头注意力操作。

scaled-dot-product attention

关于这个注意力机制的解释,最好的就是这个公式,针对每一个query,通过和Key进行点乘,得到每一个value的权重,再和value相乘,最后的输出是多个value的混合,混合中每个value的比例取决于query和Key的相似度。

当然,上述的过程中没有softmax以及dk的介绍,但这对应的也都是公式化的变换。总之,该过程,实际上只使用了两次矩阵乘法。

其中,这里作者之所以称这种方法为scaled。就是因为它除以了dk。

此外,为了保证t时刻的query只和此前时刻的key建立联系,我们使用了mask来屏蔽t时刻之后的key。

TODO: add  image

Mulit-head attention

值得注意的是,上述流程其实没有很多可以学习的参数,因此参考卷积层多个通道,这里设计了多头注意力机制,通过进行QKV的线性映射,我们可以在更丰富的向量空间进行参数学习。

在transoformer中,包含了三个多头注意力模块,分别位于编码器,解码器,以及编码器和解码器的连接处。

其中编码器和解码器的注意力模块中,QKV一致。而在编码器和解码器的连接处,key和value来自编码器,query来自解码器的输入。它的目的就是有效获取编码器中的输出。

RNN和transoformer的处理时序信息的方式。

positional encoding

为了保证网络把输入的相对位置关系,我们需要将位置信息输入网络。通过不同频率的sin和cos信息,我们进行位置编码。

为什么使用自注意力机制?

作者提到使用自注意力机制的三个原因。一是自注意力机制每一层的计算复杂度较小,二是自注意力机制有利于序列操作的并行化。三是,长序列中元素相互关系连接的路径较短。而学习长序列的相互依赖关系是这类问题的关键。

  • 26
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ava实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),可运行高分资源 Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值