Attention的两种机制——global attention/local attention

最新推荐文章于 2025-03-12 19:59:20 发布

一枚小码农

最新推荐文章于 2025-03-12 19:59:20 发布

阅读量8.2k

点赞数 2

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_25394043/article/details/103600780

版权

NLP 专栏收录该内容

39 篇文章

订阅专栏

目录

1 Global Attention全局注意力机制

权重计算函数

Local Attention

1 Global Attention全局注意力机制

权重计算函数

眼尖的同学肯定发现这个attention机制比较核心的地方就是如何对Query和key计算注意力权重。下面简单总结几个常用的方法：

1、多层感知机方法

主要是先将query和key进行拼接，然后接一个激活函数为tanh的全连接层，然后再与一个网络定义的权重矩阵做乘积。

这种方法据说对于大规模的数据特别有效。

2、Bilinear方法

通过一个权重矩阵直接建立q和k的关系映射，比较直接，且计算速度较快。

3、Dot Product

这个方法更直接，连权重矩阵都省了，直接建立q和k的关系映射，优点是计算速度更快了，且不需要参数，降低了模型的复杂度。但是需要q和k的维度要相同。

4、scaled-dot Product

上面的点积方法有一个问题，就是随着向量维度的增加，最后得到的权重也会增加，为了提升计算效率，防止数据上溢，对其进行scaling。

我个人通常会使用2和3，4。因为硬件机器性能的限制，1的方法计算比较复杂，训练成本比较高。

Local Attention

在这里插入图片描述

local attention机制选择性的关注于上下文所在的一个小窗口，这能减少计算代价。

关键值注意力（key-value attention）

自注意力（self-attention）

Multi-head attention

References：

NLP中的全局注意力机制（Global Attention）

详解注意力机制（Attention）——Global/Local/Self Attention

Attention机制简单总结

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。