学习Transformer进度一

最新推荐文章于 2024-03-27 21:18:08 发布

喜欢地上爬的孩子

最新推荐文章于 2024-03-27 21:18:08 发布

阅读量505

点赞数

分类专栏： transformer python 深度学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Thefreelittle/article/details/125322696

版权

python 同时被 3 个专栏收录

20 篇文章 4 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

一、Transformer的优势（相比于LSTM和GRU）：

1、Transformer能够利用分布式GPU进行并行训练，提升模型训练效率。
2、在分析预测更长的文本时，捕捉间隔较长的语义关联效果更好。

二、Transformer模型的作用：

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务，如机器翻译、文本生成等，同时又可以构建预训练语言模型，用于不同任务的迁移学习。

三、Transformer的总体架构：

在这里插入图片描述
总体的架构图分为四部分：

1、输入部分：

（1）包含两部分：

1、源文本嵌入层及其位置编码器。
2、目标文本嵌入层及其位置编码器。
在这里插入图片描述

（2）文本嵌入层的作用：

无论是源文本嵌入还是目标文本的嵌入，都是为了将文本中词汇的数字转变为向量表示，希望在这样的高维空间捕捉词汇间的关系。

2、输出部分：

（1）包含两部分：
1、线性层（得到outputsize）。
2、softmax层（提取出来概率最大的那个值）。
在这里插入图片描述

3、编码器：

（1）包含四个部分：
         1、由N个编码器层堆叠而成。
         2、每个编码器层由两个子层连接结构组成。
         3、第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接。
         4、第二个子层连接结构包含一个前馈全连接子层和规范化层以及一个残差链接。
在这里插入图片描述

4、解码器：

（1）包含五部分：
         （1）由N个解码器堆叠而成。
         （2）每个解码器由三个子层连接结构组成。
         （3）第一个子层连接结构包含一个多头自注意力子层和规范化层以及一个残差链接。
         （4）第二个子层连接结构包含一个多头注意力子层和规范化层以及一个残差连接。
         （5）第三个子层连接结构包含一个前馈全连接子层和规范化层以及一个残差连接。
在这里插入图片描述

喜欢地上爬的孩子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
学习Transformer进度一

transformer
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

喜欢地上爬的孩子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。