Transformer

本文概述Transformer架构,包括其6个结构相同的encoder和decoder,重点讲解input/output embedding、位置编码的作用以及多头注意力机制。通过实例解析,探讨了如何处理输入的先后关系和使用位置编码增强时序信息。
摘要由CSDN通过智能技术生成

从全局角度概括Transfomer

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
6个encoder结构是完全相同的(但参数上不同),6个decoder结构是完全相同的(但参数上不同)。
在这里插入图片描述
先来介绍下input embedding和output embedding:

input embedding是编码器的输入,output embedding是解码器的输入。

input embedding和output embedding 是通过token embedding matrix 得到的,需要先构建token embedding matrix,维度是vocab_size乘d_model(vocab_size是词汇量的大小,d_model是词向量的长度,也就是说每一个词都用一个d_model维的向量表示,所有的词合起来就构成了这个矩阵),然后用tf.nn.embeddinglookup函数在matrix里按照x查询得到input embedding,x是由词的id构成的向量,设x的长度为T1,那么最终得到的input embedding的维数就是T1乘d_model。output embedding和input embedding的得到方式相同,不同的地方在于把x换成decoder_inputs,以机器翻译为例,要把T1长的英文翻译成T2长的中文,那么x是T1长的英文词id,decoder inputs就是对应T2长的中文词id,所以最终得到的output embedding是T2乘d_model维。

位置编码详细解读

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
rnn共享一套参数
就算你有100个timestamp(100个字、100个词)但是只有一套参数(U、W、V)
rnn梯度消失:rnn的梯度是梯度和,梯度消失不是变为0而是总梯度被近距离梯度阻挡,远距离梯度忽略不计

rnn的输入有先后,transfomer的输入是一起处理的,这样做增快了速度,但是忽略单词的先后关系,所有transfomer要位置编码
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
我爱你
pos我,k爱,pos+k你

多头注意力机制详解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Q先和K点乘,反应两个向量之间的相似度


详细介绍一下
在这里插入图片描述
在这里插入图片描述
attention:将特征和目标进行相似度匹配(Y1和X1~4,Y2和X1~4,Y3和X1~4)
在这里插入图片描述
在这里插入图片描述
g(x)是一个加和函数
在这里插入图片描述
在这里插入图片描述
query是汤姆,key1是Tom,key2是Chase,K3是Jerry
在这里插入图片描述
在这里插入图片描述
value和key是同一个东西

在这里插入图片描述
自注意力机制指的是QKV是同一个东西,也就是Tom chase jerry
在这里插入图片描述
在这里插入图片描述


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里的embedding加上了位置编码

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
多头将原始信息打到不同的空间

残差详解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
残差结构确保不会出现梯度消失

Batch Normal详解

在这里插入图片描述
BN在NLP中效果很差,所以大多数情况下使用LN
在这里插入图片描述

在这里插入图片描述
BN针对所有样本的每一个特征
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Layer Normal详解

在这里插入图片描述
在这里插入图片描述
不能我和今、爱和天、中和天这么做均值和方差(BN)
而应该我爱中国共产党、今天天气真不错做均值和方差(LN)
在这里插入图片描述

Decoder详解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
因为在预测阶段是没有后面的信息的,所以需要mask
在这里插入图片描述
在这里插入图片描述
在这里插入图片描
在这里插入图片描述
encode的KV,decode的Q
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值