【nlp】2.6 注意力机制Attention

lys_828

于 2023-11-16 18:52:48 发布

阅读量202

点赞数

分类专栏： NLP自然语言处理文章标签：自然语言处理人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lys_828/article/details/134409116

版权

NLP自然语言处理专栏收录该内容

30 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了注意力机制在自然语言处理中的应用，详细讲解了注意力计算规则，包括自注意力和一般注意力，并通过seq2seq模型架构解释了其在翻译任务中的作用。注意力机制解决了RNN在处理序列数据时的遗忘问题，提高了模型效率和性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注意力机制

1 注意力机制介绍
2 什么是深度神经网络注意力机制
3 注意力机制的作用
4 注意力机制实现步骤
- 4.1 步骤
- 4.2 代码实现

1 注意力机制介绍

1.1 注意力概念

我们观察事物时，之所以能够快速判断一种事物(当然允许判断是错误的)，是因为我们大脑能够很快把注意力放在事物最具有辨识度的部分从而作出判断；而并非是从头到尾的观察一遍事物后，才能有判断结果。正是基于这样的理论，就产生了注意力机制。

1.2 注意力计算规则

它需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果, 这个结果代表query在key和value作用下的注意力表示. 当输入的Q=K=V时, 称作自注意力计算规则；当Q、K、V不相等时称为一般注意力计算规则

例子：生活中的Q, K, V的比喻解释:
在这里插入图片描述

如上图所示, 一个简单的比喻是在档案柜中找文件. 查询向量Query就像一张便利贴, 上面写着你正在研究的课题. 键向量Key像是档案柜中文件夹上贴的标签. 当你找到和便利贴上所写相匹配的文件夹时, 拿出对应的文件夹, 文件夹里的东西便是值向量Value.

将单词的查询向量Query分别乘以每个文件夹的键向量Key，得到各个文件夹对应的注意力得分Score.

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lys_828 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。