多头注意力机制（Multi-head Attention）及其在PyTorch中的使用方法分析

最新推荐文章于 2024-06-10 00:44:13 发布

扣德夫特

最新推荐文章于 2024-06-10 00:44:13 发布

阅读量2.8w

点赞数 24

分类专栏： Pytorch 深度学习文章标签：深度学习算法 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HappyCtest/article/details/109847449

版权

内容目录

简介
多头注意力机制
- 注意力机制的直观理解
- 注意力机制具体是怎么做的
PyTorch中的类
- 伪代码重述
- 具体怎么用

简介

多头注意力（Multi-head Attention）机制是当前大行其道的Transformer、BERT等模型中的核心组件，但我一直没懂其内部到底是怎么做的，PyTorch提供的接口的众多参数也弄不清有什么用。今天抽个时间，结合论文和PyTorch源码，深入学习一下。

仅为个人理解，如有错误敬请指正！

多头注意力机制

PyTorch中的Multi-head Attention可以表示为：

$\text{MultiheadAttention}(Q, K, V) = \text{Concat}(\text{head}_1, \cdots, \text{head}_h)W^O$

其中

$\text{head}_i=\text{Attention}(Q, K, V)$

最低0.47元/天解锁文章

关注

24
点赞
踩
153

收藏

觉得还不错? 一键收藏
1
评论
多头注意力机制（Multi-head Attention）及其在PyTorch中的使用方法分析

内容目录简介多头注意力机制注意力机制到底在干什么PyTorch中怎么用API简介多头注意力（Multi-Head Attention）机制是当前大行其道的Transformer、BERT等模型中核心的组件，但我一直没懂其内部到底是怎么做的，PyTorch提供的接口的众多参数也弄不清怎么用。今天抽个时间，结合论文和PyTorch源码，深入学习一下到底是怎么回事。仅为个人理解，如有错误敬请指出！多头注意力机制Multi-Head Attention可以表示为：MultiHeadAttention(Q
复制链接

扫一扫

专栏目录

扣德夫特 CSDN认证博客专家 CSDN认证企业博客

码龄13年

13: 原创

19万+: 周排名

78万+: 总排名

6万+: 访问

: 等级

625: 积分

12: 粉丝

44: 获赞

32: 评论

307: 收藏

私信

关注

分类专栏

最新评论

多头注意力机制（Multi-head Attention）及其在PyTorch中的使用方法分析
Monster-Z: 你好，请问，其中attn_output_weights为多个head的平均权重，返回平均权重的意义在哪里呢？我实际代码开发需要多个头的attention矩阵，如果这样那我是不是要自己实现？
transformers BERT等模型在自己的数据集上fine-tune方法
muyuqing_sir: 链接更新了 https://github.com/huggingface/transformers/tree/master/examples/pytorch/language-modeling
transformers BERT等模型在自己的数据集上fine-tune方法
大雾的小屋: 作者你好，请问这个文章有什么意义呢？
借助Anaconda同时安装Python 2和Python 3（最优雅的办法）
江不江: 这里更正一下：windows操作系统下找python环境的安装地址，应该是where python
借助Anaconda同时安装Python 2和Python 3（最优雅的办法）
江不江: 确实很优雅！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。