Talking-Heads Attention

最新推荐文章于 2024-03-14 15:32:49 发布

酒酿小圆子～

最新推荐文章于 2024-03-14 15:32:49 发布

阅读量3.7k

点赞数 1

分类专栏：机器学习 & 深度学习文章标签：深度学习自然语言处理 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012856866/article/details/120200861

版权

机器学习 & 深度学习专栏收录该内容

93 篇文章

订阅专栏

本文探讨了谷歌提出的Talking-HeadsAttention，它通过线性映射增强多头注意力间的交互，提升模型性能。介绍了其原理、基本实现方式，并提供了相关实现代码链接。对比了与标准Multi-HeadAttention的区别，展示了在语言处理中的应用潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Multi-Head Attention

当前最流行的Attention机制当属 Scaled-Dot Attention (源于 Attention Is All You Need) ，即：

在这里插入图片描述

基于上述 Scaled-Dot Attention 下标准的 Multi-Head Attention 如下所示：

在这里插入图片描述

2. Talking-Heads Attention

近日，来自 Google 的研究团队提出一种「交谈注意力机制」（Talking-Heads Attention），在 softmax 操作前后引入对多头注意力之间的线性映射，以此增加多个注意力机制间的信息交流。这样的操作虽然增加了模型的计算复杂度，却能够在多项语言处理问题上取得更好的效果。

论文：Talking-Heads Attention
论文地址：https://arxiv.org/abs/2003.02436

2.1 基本原理

当前的Multi-Head Attention每个head的运算是相互孤立的，而通过将它们联系（Talking）起来，则可以得到更强的Attention设计

在这里插入图片描述
如上图，就是将多头注意力用一个参数矩阵重新融合成多个混合注意力。每个新的得到的混合注意力都融合了原先的各head注意力。
注：
1、这里省略了缩放因子 {d_k}^1/2
2、新生成的多个混合注意力可以多于原先的h

2.2 具体实现

tensorflow官方实现：https://github.com/tensorflow/models/tree/master/official/nlp/modeling/layers
pytorch实现1：https://github.com/lucidrains/x-transformers
pytorch实现2：https://github.com/lucidrains/En-transformer

【参考博客】：

注意力机制的改进：https://blog.csdn.net/zsycode/article/details/105811847
Google | 突破瓶颈，打造更强大的Transformer：https://blog.csdn.net/xixiaoyaoww/article/details/105549150

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。