浅谈Attention Is All You Need

小徐ya

已于 2024-04-18 12:45:35 修改

阅读量565

点赞数 7

文章标签： transformer 神经网络

于 2024-04-18 12:44:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59402094/article/details/137916280

版权

Attention is all you need 是一篇发表在NIPS 2017年会议上的论文，该论文犹如火星撞地球一般迅速横扫了整个自然语言处理学术界，并迅速取代了循环神经网络家族成为了之后的语言模型里的标配。如我们熟知的GPT(生成式预训练模型)系列模型和BERT(来自transformer的双向编码器表征)系列模型，都是受到了这篇文章的启发采用了部分transformer的架构。

Part 1 神经网络基础

神经网络基础

全连接

隐藏层激活函数

如果没有激活函数，那么多层神经网络的表达能力和单层神经网络的表达能力相同，因此引入非线性激活函数，防止多层神经网络塌缩成单一的神经网络。

常见激活函数

输出层

输出层函数

loss函数

梯度下降

反向传播

Part 2 Transformer结构

整体结构

左边是Encoder，右边是Decoder。

下面：输入层，输入层需要将文本序列切分成一个个小单元token，通过embedding转化为向量表示，

中间：模型部分，由多个Transformer block堆叠而成，结构一样但参数有略微差异。通过block的堆叠，可以让模型得到更好的效果。

最上面：输出层，一个线性变换和一个softmax，来输出词表上的概率分布。

Encoder端

输入层的文本切分方式BPE

输入层中的Positional Encoding(位置编码)

Encoder端的block

核心：Multi-Head Attention

补充：解释注意力机制

（1）计算注意力分数，s1分别和hi进行点积，得到7个标量（深度学习中的标量就是常数），得到向量$e^1$,

向量$e^1$就是Encoder端隐向量的注意力分数，这个分数就表明了s1与每个Encoder端隐向量的相似程度，

(2)然后用一个softmax函数，转换为概率分布；

前两个位置的值比较大，在这一步的生成中，会更关注前两个位置的隐向量，

(3)对隐向量进行加权求和，得到向量$o_{1}$,向量$o_{1}$包含了Decoder需要的Encoder提供的所有信息；

Multi-Head Attention

和原来的注意力机制不同的是，

在Transformer中，给定的是一个query向量、一个key向量和value向量对的集合，query向量和key向量的维度都是$d_{k}$,通过向量q和向量k计算注意力分数，通过softmax转换成注意力分布。

Decoder端

和Encoder端block不同的地方：

Masked Multi-Head Attention:通过限制向量Q和向量K相乘得到注意力分数矩阵，把上三角部分变成负无穷，经过softmax之后，上三角部分的概率分布都是0，使得模型无法在当前输出的时候”看到“后面的单词。不会出现生成第i个词参考了第i+1个词，符合从左到右的书写逻辑。

中间多加了一个Multi-Head Attention：它的query向量Q来自Decoder，K 、V向量来自Encoder最后一层的输出，帮助Decoder端的每一步生成都可以关注和整合Encoder端的信息。

关注

7
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
浅谈Attention Is All You Need

Attention Is All You Need论文解读
复制链接

扫一扫

小徐ya CSDN认证博客专家 CSDN认证企业博客

码龄3年

北京工商大学

23: 原创

17万+: 周排名

-: 总排名

1万+: 访问

: 等级

685: 积分

322: 粉丝

454: 获赞

19: 评论

389: 收藏

私信

关注

热门文章

最新评论

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents
CSDN-Ada助手: 恭喜您发布了第18篇博客！标题“AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents”听起来非常引人注目。您对多智能体协作和探索智能体涌现行为的研究领域有着深入的了解，希望您能继续分享您的见解和研究成果。在下一步的创作中，我建议您可以考虑添加一些具体案例或实践经验，以便更好地展示您的研究成果。另外，您也可以尝试探索一些新的领域或方法，以丰富您的研究内容。期待您的更多精彩作品！
AutoAgents: A Framework for Automatic Agent Generation
CSDN-Ada助手: 恭喜您发布了第19篇博客“AutoAgents: A Framework for Automatic Agent Generation”，看来您在自动代理生成方面有着深入的研究和探索。持续创作不易，您的努力和热情让人钦佩。接下来，我建议您可以尝试深入探讨该框架的实际应用场景，或者结合其他相关领域进行交叉研究，以拓展您的研究视野。希望您能继续保持创作的热情，为自动代理领域的发展贡献更多的智慧和见解。期待您更多的精彩文章！
METAGPT: META PROGRAMMING FOR A MULTI-AGENT COLLABORATIVE FRAMEWORK
CSDN-Ada助手: 恭喜您发布第20篇博客！标题“METAGPT: META PROGRAMMING FOR A MULTI-AGENT COLLABORATIVE FRAMEWORK”听起来非常专业和引人注目。您对元编程和多代理协作框架的探索令人印象深刻。我期待着您未来更多的创作，希望您可以继续分享关于这一领域的见解和实践经验。或许在下一篇博客中，可以深入探讨如何应用这一框架解决实际问题，或者分享一些具体的案例研究。再次恭喜您，期待您的精彩内容！祝您创作愉快！
浅谈Attention Is All You Need
CSDN-Ada助手: 恭喜用户写了第三篇博客，标题为“浅谈Attention Is All You Need”！阅读您的文章让我对这个主题有了更深入的了解，感谢您分享这些知识。接下来，我建议您可以尝试探讨一些与Attention Is All You Need相关的实际应用案例，或者深入研究一些相关的前沿技术，这样可以让您的读者更加深入地了解这个领域。期待您更多精彩的创作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
神经网络中容易出现的问题、原因以及解决措施
CSDN-Ada助手: 恭喜用户写下了第四篇博客，内容围绕“神经网络中容易出现的问题、原因以及解决措施”，这是一个非常有价值和实用性的主题。在神经网络的应用中，问题的出现确实是难免的，但通过深入分析问题的原因并提出解决措施，可以帮助读者更好地应对挑战。希望用户在接下来的创作中继续保持热情和耐心，可以考虑探讨一些实际案例或者结合个人经验分享，以丰富读者的阅读体验。同时，也建议用户多与其他领域的专家或者同行进行交流，不断学习和提升自己的专业水平。期待用户更多精彩的博客作品，加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。