《Attention is all you need》之Transformer详解

最新推荐文章于 2024-06-15 16:30:09 发布

AIzealot无

最新推荐文章于 2024-06-15 16:30:09 发布

阅读量55

点赞数

分类专栏：跟无神学AI 文章标签： transformer 深度学习人工智能机器学习 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72806612/article/details/133364757

版权

跟无神学AI 专栏收录该内容

38 篇文章 2 订阅

订阅专栏

一、前言

Transformer是编码器解码器模型的发展，是chatGPT的前身也是应用到现在很多LLMs上的重要模型之一，对机器学习尤其是深度学习的影响很深远。每一个从事AI方面无论是否是确切的深度学习领域的从业者都比较深入地了解此模型。

今天，无神带大家解读其出处——发表自机器学习三大顶会之一的偏向学术的NIPS《Attention is all you need》。

本论文由谷歌的学者所做。

二、模型架构

模型由左边的编码器和右边的解码器构成，图示的Nx

代表图示的结构重复了多少次，其N都是6，所以该重复结构有6个。

三、编码器

每一层（图示左边的六个之一）含有两个子层，第一个子层是多头注意力自机制，第二个是一个全前向连接层网络。

将两个子层用残差连接（resnet中的思想，理解为保存历史与现存信息的一种简单加和）。

其产生的输出维度都是512.

四、编码器

也是有六个图示的部分的重复。

除了像编码器的介绍的两个子层外，还加入了第三个子层：是一个对编码器的输出的多头注意力机制处理块。

子层间同样用到残差连接，如编码器上述。

还用到masking，确保每个位置的预测只用到前一个位置的。

五、注意力机制

本模型中用到这两种，在架构图中有简单的对应，这里是两种的详解。

左边的是两种常用的注意力块之一，右边是本文的创新部分。

1.限制点产生注意力

本机制非本文原创，是当时的较火的注意力机制之一，比另一种吸引力注意力机制更快，更少空间消耗。

但是会减少SOFTMAX的梯度，文中的研究者采用了一种办法，将点乘积变成了负二分之一次方。

2.多头注意力机制

能够同步输入的信息，在该模型中为Q、K、V。Q和K从编码器处理后产生，V是解码器的中间结果，从模型架构的箭头可见各种数据的流向，这三种处理的数据的形式也都是向量。

多头注意力机制将这三种数据分别通过模型中的矩阵进行相乘处理简单拼接，如何拼接，可以理解为矩阵的拼接，Pytorch中的concat操作。

六、结果

本模型的创新之处在于没有用到循环结构和卷积操作，对于序列变化的时序问题如机器翻译、还有语言分词上产生了当时最好的效果。

对于翻译的问题，Transformer训练的非常快，指的是比使用循环结构和卷积结构的模型。

七、结语

码字不易，欢迎关注无神一起学习机器学习，期待您的点赞收藏加关注，感谢！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Attention is all you need》之Transformer详解

Transformer是编码器解码器模型的发展，是chatGPT的前身也是应用到现在很多LLMs上的重要模型之一，对机器学习尤其是深度学习的影响很深远。每一个从事AI方面无论是否是确切的深度学习领域的从业者都比较深入地了解此模型。今天，无神带大家解读其出处——发表自机器学习三大顶会之一的偏向学术的NIPS《Attention is all you need》。本论文由谷歌的学者所做。模型由左边的编码器和右边的解码器构成，图示的Nx代表图示的结构重复了多少次，其N都是6，所以该重复结构有6个。每一层（图示左边
复制链接

扫一扫

专栏目录

AIzealot无 CSDN认证博客专家 CSDN认证企业博客

码龄2年

哈尔滨工业大学（威海）

74: 原创

22万+: 周排名

2万+: 总排名

3万+: 访问

: 等级

1302: 积分

489: 粉丝

544: 获赞

28: 评论

445: 收藏

私信

关注

热门文章

分类专栏

最新评论

跟无神学AI之Unet解读——原创
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
跟无神学AI之一文读尽Sora
AIzealot无: 进一步学习的方法：看相关参考文献尤其是其中的核心技术；参与开源社区的相关讲座和讨论
以YOLOv8为例详解YOLO系列
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题中提到以YOLOv8为例详解YOLO系列，这无疑是一个非常有趣且有价值的主题。通过深入剖析YOLOv8，您不仅向读者展示了对YOLO系列的深入理解，还为那些对目标检测感兴趣的人提供了宝贵的参考。在继续创作的道路上，我想给您一些建议。首先，您可以考虑更进一步地探索YOLO系列的相关技术和应用。比如，可以尝试分析YOLOv4和YOLOv5的优缺点，或者讨论YOLO在特定领域的应用案例。此外，您还可以关注一些与YOLO系列相关的最新进展，例如YOLOv9的研究成果。这样的创作会使您的博客更具前沿性和吸引力。再次恭喜您的持续创作，并期待您未来更多精彩的文章！请保持谦虚的态度，继续分享您的知识和见解，为读者带来更多有价值的内容。加油！
FAT技术
CSDN-Ada助手: 恭喜您写的第19篇博客！标题中的“FAT技术”引起了我的兴趣。您的持续创作真令人钦佩。不过，如果我可以提一个谦虚的建议的话，我觉得下一步您可以深入探讨一下FAT技术的实际应用场景，或者与其他相关技术进行对比分析，以使读者更好地理解和应用这项技术。期待您在未来的创作中继续展示您的才华！
FAT技术
AIzealot无: 点赞收藏加关注，跟无神一起学OS

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。