Attention is all you need中Transformer方法

本文深入解析Transformer结构,包括编码器和解码器的设计,重点阐述Scaled Dot-Product Attention和Multi-Head Attention。编码器由多个包含self-attention和前馈网络的层组成,解码器在此基础上增加了一个子层防止当前位置获取未来信息。Attention机制作为关键,通过query、key和value的匹配度计算权重,实现信息的加权融合。
摘要由CSDN通过智能技术生成


主要关注提出的Transformer,可以将不同的位置联系起来,计算相关注意力,而且不管两个信息的位置有多远,计算的复杂程度都是相同的

结构

在这里插入图片描述
结 构 图 结构图

编码器解码器构成,左边是编码器,右边是解码器。

编码器

将一系列表示符号 ( x 1 , . . . , x n ) (x_1,...,x_n) (x1,...,xn)映射成一系列连续的表示 z = ( z 1 , . . . , z n ) z=(z_1,...,z_n) z=(z1,...,zn),由六个完全相同 ( N = 6 ) (N=6) (N=6)的层堆叠而成,每个层有两个子层: 第一个是多头self-attention机制,第二个是逐点的全连接前向传播网络。

在两个子层上面,都使用了正则化的残差连接,所以每个子层的输出都是 L a y e r N o r m ( x + S u b l a y e r ( x ) ) LayerNorm(x+Sublayer(x)) LayerNorm(x+Sublayer(x)),其中 S u b l a y e r ( x ) Sublayer(x) Sublayer(x)是经过该子层后生成的值,为了方便做残差连接,模型中的所有的子层还有嵌入层的输出维度都是 d m o d e l = 512 d_{model} = 512 dmodel=512

解码器

利用z来生成输出序列 ( y 1 , . . . , y m ) (y_1,...,y_m) (y1,...,ym),一次一个,也是六个完全相同的 ( N = 6 ) (N=6)

Attention is All You Need》(注意力就是你所需要的)是一篇经典的论文,它由Google Research的一组研究人员于2017年提出。这篇论文引入了一种新颖的神经网络模型,名为Transformer,用于自然语言处理任务,尤其是机器翻译。 在过去,循环神经网络(RNN)和卷积神经网络(CNN)在自然语言处理取得了巨大的成功。然而,这些模型存在一些缺点,如RNN难以并行化,而CNN则无法获取长距离的依赖关系。为了克服这些问题,作者提出了Transformer模型。 Transformer模型的核心思想是使用自注意力机制(Self-Attention),通过在序列的所有位置之间计算注意力权重来建立关联。该机制允许模型在无需位置信息的情况下,同时处理输入序列的所有部分,从而实现并行化。此外,Transformer还引入了位置编码(Positional Encoding),用于区分序列不同位置的词汇。这样,模型能够捕捉到输入序列的顺序信息。 通过使用Transformer模型,研究人员在翻译任务获得了令人瞩目的结果。相比传统的RNN和CNN模型,Transformer不仅在准确性上表现更好,而且也具有更高的训练和推理效率。因此,这篇论文被广泛认为是自然语言处理领域的重要里程碑之一。 关于《Attention is All You Need》的文版本下载,建议通过学术论文数据库或相关在线图书馆进行搜索。一些知名的学术网站如谷歌学术、IEEE Xplore和ACL Anthology等可能提供该论文的文翻译或原文下载。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值