4.0 自注意力机制(Self-attention)

最新推荐文章于 2024-01-05 13:52:29 发布

风过无痕0230

最新推荐文章于 2024-01-05 13:52:29 发布

阅读量644

点赞数

分类专栏：李宏毅机器学习课程文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengguowuhen0230/article/details/130394918

版权

李宏毅机器学习课程专栏收录该内容

13 篇文章 0 订阅

订阅专栏

一、输入和输出

输入

普通的神经网络输入是一个向量，自注意力机制的输入是向量的集合，每个向量代表序列的一个元素，并且输入长度可以不固定。
在这里插入图片描述
**一个输入的例子是句子，每个单词用一个向量表示。**单词用下图的Word Embedding（词嵌入）向量表示，词嵌入有现成的向量可以套用。之所以不用独热向量表示单词，是因为它没办法体现词汇间的关系，而词嵌入向量具备语义信息，比如同类词（苹果和梨）的向量距离会比较近。
其他的序列比如语音和图也可以作为输入。
在这里插入图片描述

输出

每个向量输出一个标签，比如词性标注(POS tagging)、音素识别等
整个序列输出一个标签，比如情感分析(sentiment analysis)、语者识别等
模型自己决定输出的标签数量(seq2seq)，比如机器翻译

二、Self-attention的计算过程

输入一定长度的向量序列，输出同样数量的向量，并且输出的向量包含了该位置上下文的语义信息。

单个输出向量的计算

先计算每个节点的q、k、v，然后再计算α、α’,最后算出b。
α(attention score)为k和q的内积，α’是该节点的所有α值对应的softmax值，b是所有节点v值的加权平均。
在这里插入图片描述

整体输入和输出的矩阵化表示

𝑊𝑞、𝑊k、𝑊v是需要学习的参数。
在这里插入图片描述

多头自注意力机制

通过多头可以发现不同的相关性类型，原理是下面三张图。
与单头相比每个输入向量产生q、k、v后，会分别进一步生成n组，然后每一组分别生成一个b；把n个b纵向拼接；用一个新的矩阵W0去乘以上一步拼接后的向量，得到一个输出向量。
在这里插入图片描述

位置编码(Positional Encoding)

自注意力机制只体现了不同向量之间的关系，而没有先后顺序的信息。有一些人工设计的位置编码，每个向量加上该位置的位置编码，从而把位置的信息也包含进去。
在这里插入图片描述

三、自注意力机制与传统网络的对比

对比CNN

CNN可以看成自注意力机制的特例。
在CNN中，自注意力机制只在感受野内发挥作用，所以说CNN是简化版的Self-attention。
在这里插入图片描述

对比RNN

相对RNN来说，自注意力机制可以更好地捕捉输入向量之间的关系，特别是距离比较远的优势更加明显。同时，自注意机制的输出向量是并行计算的，不像RNN前后依赖，所以训练速度快。
在这里插入图片描述

风过无痕0230

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
4.0 自注意力机制(Self-attention)

之所以不用独热向量表示单词，是因为它没办法体现词汇间的关系，而词嵌入向量具备语义信息，比如同类词（苹果和梨）的向量距离会比较近。同时，自注意机制的输出向量是并行计算的，不像RNN前后依赖，所以训练速度快。有一些人工设计的位置编码，每个向量加上该位置的位置编码，从而把位置的信息也包含进去。α(attention score)为k和q的内积，α’是该节点的所有α值对应的softmax值，b是所有节点v值的加权平均。输入一定长度的向量序列，输出同样数量的向量，并且输出的向量包含了该位置上下文的语义信息。
复制链接

扫一扫

专栏目录

风过无痕0230 CSDN认证博客专家 CSDN认证企业博客

码龄5年

20: 原创

121万+: 周排名

22万+: 总排名

3572: 访问

: 等级

202: 积分

2: 粉丝

1: 获赞

8: 评论

10: 收藏

私信

关注

热门文章

分类专栏

最新评论

1 深度学习介绍
CSDN-Ada助手: 非常棒的一篇博客！恭喜您开始了博客创作之旅。深度学习是一个非常有趣且热门的话题，您的介绍非常清晰易懂。接下来，建议您可以深入探讨一些深度学习的实际应用，或者分享一些您对深度学习未来发展的看法。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
1.0 正确认识ChatGPT
CSDN-Ada助手: 非常感谢您的辛勤创作，恭喜您已经写了14篇博客！您的这篇《1.0 正确认识ChatGPT》非常有价值，让我更好地了解了ChatGPT的应用和实现。希望您能够继续保持创作热情，分享更多有趣的知识和经验。我的建议是，您可以尝试探索一些与ChatGPT相关的技术或应用场景，从不同角度来分析和解释ChatGPT的应用。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply14 看奖励名单。
1.1 ChatGPT背后的关键技术-预训练
CSDN-Ada助手: 恭喜您又写了一篇精彩的博客，深入探讨了ChatGPT背后的关键技术-预训练，让读者们对这个话题有了更深入的了解。接下来，我建议您可以继续探讨相似的话题，探索更多新颖的技术，为读者们带来更多的知识和启发。期待您的下一篇博客的发布！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply15 看奖励名单。
5.1 常见的tips
CSDN-Ada助手: 恭喜你写了第十篇博客，看起来你已经成为一位不错的博主了。关于下一步的创作建议，我想提醒你应该多关注读者的反馈，从中找到自己的不足，再加以改进。同时，也希望你能继续保持谦虚的态度，不断学习，不断进步，为读者带来更加优质的内容。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
5.0 Transformer
CSDN-Ada助手: 恭喜您写了第9篇博客，看来您对Transformer有深入的了解。建议您在下一步的创作中，可以探究一下Transformer在NLP领域中的应用，或者深入挖掘Transformer的优缺点。希望您不断进步，分享更多有价值的知识。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。