Transformer一图总览(方便记忆和查阅)

Transformer architecture

在这里插入图片描述

Transformer architecture 参考论文Vaswani et al., 2017。

总览

Transformers是一种多层结构,由Transformer block相互堆叠而成。

Transformer block的组成
  • 一个多头自注意机制(multi-head self-attention mechanism)
  • 一个位置前馈网络(position- wise feed-forward network)
  • 层规范化(layer normalization)(Ba等人,2016)模块
  • 残差连接层(residual connectors)。
模型输入

input: a tensor of shape RB × RN, B is the batch size, N the sequence length.
embedding layer: input首先通过一个embedding layer,该embedding layer将每个one-hot token表示转换为d维嵌入,即RB×RN×RD

然后,新的张量与位置编码Positional encodings相加,并通过一个多头自我注意模块。

位置编码可以采用正弦输入的形式(根据(Vaswani等人,2017年))或可训练的嵌入trainable embeddings。

多头自我注意模块的输入和输出通过残差连接器和一层标准化层连接。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值