Attention is all you need中Transformer方法

本文深入解析Transformer结构,包括编码器和解码器的设计,重点阐述Scaled Dot-Product Attention和Multi-Head Attention。编码器由多个包含self-attention和前馈网络的层组成,解码器在此基础上增加了一个子层防止当前位置获取未来信息。Attention机制作为关键,通过query、key和value的匹配度计算权重,实现信息的加权融合。
摘要由CSDN通过智能技术生成


主要关注提出的Transformer,可以将不同的位置联系起来,计算相关注意力,而且不管两个信息的位置有多远,计算的复杂程度都是相同的

结构

在这里插入图片描述
结 构 图 结构图

编码器解码器构成,左边是编码器,右边是解码器。

编码器

将一系列表示符号 ( x 1 , . . . , x n ) (x_1,...,x_n) (x1,...,xn)映射成一系列连续的表示 z = ( z 1 , . . . , z n ) z=(z_1,...,z_n) z=(z1,...,zn),由六个完全相同 ( N = 6 ) (N=6) (N=6)的层堆叠而成,每个层有两个子层: 第一个是多头self-attention机制,第二个是逐点的全连接前向传播网络。

在两个子层上面,都使用了正则化的残差连接,所以每个子层的输出都是 L a y e r N o r m ( x + S u b l a y e r ( x ) ) LayerNorm(x+Sublayer(x)) LayerNorm(x+Sublayer(x)),其中 S u b l a y e r ( x ) Sublayer(x) Sublayer(x)是经过该子层后生成的值,为了方便做残差连接,模型中的所有的子层还有嵌入层的输出维度都是 d m o d e l = 512 d_{model} = 512 dmodel=512

解码器

利用z来生成输出序列 ( y 1 , . . . , y m ) (y_1,...,y_m) (y1,...,ym),一次一个,也是六个完全相同的 ( N = 6 ) (N=6)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值