Transformer总体结构以及各部分介绍

最新推荐文章于 2025-03-15 22:00:30 发布

陈庄村东地的码农

最新推荐文章于 2025-03-15 22:00:30 发布

阅读量1.2k

点赞数 1

分类专栏： Trnsformer 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46176086/article/details/129940067

版权

Trnsformer 专栏收录该内容

1 篇文章

订阅专栏

1、背景介绍

2018年10月，Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》BERT模型横空出世，并横扫NLP领域11项任务的最佳成绩!

而在BERT中发表重要作用的结构就是Transformer，之后又相继出现XLNET，roBERT等模型击败了BERT，但是他们的核心没有变，任然是：Transformer

2、Transformer的优势

Transformer能够利用分布式GPU进行并行训练，提升模型训练效率。
在分析预测更长的文本时，捕捉间隔较长的语义关联效果更好。

2.1 认识Transformer架构

Transformer模型的作用：

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务如机器翻译文本生成等.同时又可以构建预训练语言模型，用于不同任务的迁移学习.

transformer：总体架构图

Transformer：总体架构可分为四个部分

输入部分
输出部分
编码器部分
解码器部分

输入部分包含：

源文本嵌入层及其位置编码器
目标文本嵌入层及其位置编码器

输出部分包含：

线性层
softmax层

编码器部分：

由N个编码器层堆叠而成
每个编码器由两个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个前馈全连接子层和规范化以及一个残差连接

解码器部分：

由N个解码器堆叠而成
每个解码器层由三个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

内容总结于：B站视频（个人感觉很好）

陈庄村东地的码农

博客等级

码龄5年

14
原创

156
点赞

501
收藏

85
粉丝

关注

私信

热门文章

分类专栏

最新评论

怎么在jupyter中安装tensorflow，并切换环境为tensorflow
Xdostar: 您好我激活上面创建的tensorflow环境，没有显示是怎么回事
怎么在jupyter中安装tensorflow，并切换环境为tensorflow
小汤唯: 激活的时候进入不了TensorFlow环境是怎么回事？
关于小样本学习综述论文的总结
bioinfomatic: 总结的实在是太好了！！！！！！
软件设计原则
CSDN-Ada助手: 恭喜您发布了关于“软件设计原则”的第15篇博客！持续创作并分享知识是非常可贵的，您的努力让读者们受益良多。接下来，我建议您可以尝试深入探讨某个具体的软件设计原则，或者结合实际案例进行分析，这样能够更加生动地展示您的见解和经验。期待您未来更多精彩的文章！继续加油！
怎么在jupyter中安装tensorflow，并切换环境为tensorflow
陈庄村东地的码农: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow=2.0 例如这样你可以试试，我没尝试过

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。