Transformer架构

Robot3366

已于 2024-03-05 00:11:46 修改

阅读量138

点赞数 6

文章标签： transformer 深度学习人工智能

于 2024-03-04 21:54:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Robot3366/article/details/136461974

版权

Transformer自提出以来，先是在机器翻译领域大放异彩，继而在大语言模型中因OpenAI的ChatGPT而闻名天下。看过很多介绍Transformer结构的文章，首推《Attention Is All You Need》，将理解的一些过程记录，加深记忆。

Transformer的整体架构

首先从整体上看Transformer。下面左图是论文中的Transformer。右图是划分为四个部分后的架构。四个部分为输入部分、编码器、解码器、输出部分。

输入部分

输入部有的编码器的输入和产生输出后的再输入。输入部分加上了位置编码。

编码器

由N个编码器层堆叠而成
每个编码器层由两个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

解码器

由N个解码器层堆叠而成
每个编码器层由三个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

输出部分

输出部分由两部分组成，先经过线性组合，再经过Softmax，得出最大的概率。

文本嵌入

模型输入需要一定的格式向量，一种有效的格式就是文本嵌入，无论是源文本嵌入还是目标文本嵌入，都是为了将文本中词汇的数字表示转变为向量表示，在高维空间中捕捉词汇之间的关系。

关注

6
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Transformer架构

Transformer自提出以来，先是在机器翻译领域大放异彩，继而在大语言模型中因OpenAI的ChatGPT而闻名天下。看过很多介绍Transformer结构的文章，首推《Attention Is All You Need》，将理解的一些过程记录，加深记忆。
复制链接

扫一扫

Robot3366 CSDN认证博客专家 CSDN认证企业博客

码龄3年

4: 原创

154万+: 周排名

16万+: 总排名

6828: 访问

: 等级

56: 积分

6: 粉丝

12: 获赞

4: 评论

26: 收藏

私信

关注

热门文章

最新评论

CLIP安装避坑记录
青柠薯片的打怪小路: 救了大命了
Transformer架构
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
CLIP安装避坑记录
瀚溪山: 前辈，超详细Pytorch环境配置及CLIP应用实例，这里有坑吗
tensorflow导入keras出错问题
CSDN-Ada助手: 恭喜你写了第三篇博客！非常高兴看到你持续不断地创作。关于"tensorflow导入keras出错问题"这个主题，你对其中的问题和解决方案进行了详细的讲解，让读者受益匪浅。在下一步的创作中，我建议你可以尝试探索更多与tensorflow和keras相关的主题，比如深入理解它们的底层原理，或者分享一些实际应用中的经验和技巧。期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
浮点数组转为uint8整形
CSDN-Ada助手: 非常感谢您的分享！写博客的确是一种非常好的记录和分享知识的方式，也可以帮助更多的人。关于将浮点数组转为整形的问题，您的经验对我们来说非常有用。除了OpenCV自带的normalize函数，还可以使用Python中的array库进行转换。另外，对于CV2的使用，还可以学习一些基础的图像处理知识，例如图像的读取、显示、处理等等。希望您能继续分享更多的技能和经验，共同进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。