Transformer(注意力机制)

文献基本信息:

Encoder-Decoder:

Transformer的结构:

  • 输入
  • 编码器
  • 解码器
  • 输出

Transformer的工作流程:

  • 获取输入句子的每一个单词的表示向量X,X由单词的embedding(embedding是一种将高维特征映射到低维的技术)和单词位置的embedding相加得到

  • 将得到的单词表示向量矩阵(如下图所示),每一行是一个单词的表示,传入Encoder中,经过6个Encoder block后可以得到句子所有单词的编码信息矩阵C(如下图所示);单词向量矩阵用X_n*d表示,n是句子中单词的个数,d是表示向量的维度(论文中d=512);每一个Encoder block输出的矩阵维度与输入维度一致

  • 将Encoder输出的编码信息矩阵C传递到Decoder中,Decoder依次会根据当前翻译过的单词1~i翻译下一个单词i+1(如下图所示);在使用的过程中,翻译到单词i+1的时候需要通过Mask(掩盖)操作遮盖住i+1之后的单词

编码器结构:

如图,红色框是编码器结构;N表示这一层有几个编码器;编码器由一个多头注意力机制、一个残差网络、LayerNorm(层归一化)和前馈神经网络组成。

信息进入的完整流程:

  1. 多头注意力机制:处理输入特征的全局关系
  2. 输出加上输入经过:残差连接
  3. 结果经过LayerNorm:进行归一化
  4. 进入前馈神经网络:进行非线性特征变换
  5. 再次经过残差连接+ LayerNorm

论文信息:

从论文来读是Encoder有N=6层,每层包含两个子层(sub-layers)且都有多头自注意力机制,允许模型在处理序列时同时关注序列的不同部分和全连接前馈网络,对每个位置的向量进行相同的操作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值