学习Transformer进度一

一、Transformer的优势(相比于LSTM和GRU):

1、Transformer能够利用分布式GPU进行并行训练,提升模型训练效率。
2、在分析预测更长的文本时,捕捉间隔较长的语义关联效果更好。

二、Transformer模型的作用:

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务,如机器翻译、文本生成等,同时又可以构建预训练语言模型,用于不同任务的迁移学习。

三、Transformer的总体架构:

在这里插入图片描述
总体的架构图分为四部分:

1、输入部分:

(1)包含两部分:

         1、源文本嵌入层及其位置编码器。
         2、目标文本嵌入层及其位置编码器。
在这里插入图片描述

(2)文本嵌入层的作用:

         无论是源文本嵌入还是目标文本的嵌入,都是为了将文本中词汇的数字转变为向量表示,希望在这样的高维空间捕捉词汇间的关系。

2、输出部分:

(1)包含两部分:
         1、线性层(得到outputsize)。
         2、softmax层(提取出来概率最大的那个值)。
在这里插入图片描述

3、编码器:

(1)包含四个部分:
         1、由N个编码器层堆叠而成。
         2、每个编码器层由两个子层连接结构组成。
         3、第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接。
         4、第二个子层连接结构包含一个前馈全连接子层和规范化层以及一个残差链接。
在这里插入图片描述

4、解码器:

(1)包含五部分:
         (1)由N个解码器堆叠而成。
         (2)每个解码器由三个子层连接结构组成。
         (3)第一个子层连接结构包含一个多头自注意力子层和规范化层以及一个残差链接。
         (4)第二个子层连接结构包含一个多头注意力子层和规范化层以及一个残差连接。
         (5)第三个子层连接结构包含一个前馈全连接子层和规范化层以及一个残差连接。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

喜欢地上爬的孩子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值