图文理解自注意力(self-attention)

最新推荐文章于 2024-08-03 18:33:38 发布

置顶

数学编程

最新推荐文章于 2024-08-03 18:33:38 发布

阅读量2.5k

点赞数 10

分类专栏：机器学习算法文章标签：深度学习神经网络人工智能

原文链接：https://towardsdatascience.com/illustrated-self-attention-2d627e33b20a

版权

本文通过一个实例深入浅出地介绍了Transformer模型的核心——Self-Attention机制。从预处理输入数据、初始化权重到计算注意力得分，再到softmax层、加权求和，详细解释了Self-Attention如何工作，揭示了其捕捉全局信息并行计算的优势。

摘要由CSDN通过智能技术生成

谷歌在2017年发表了一篇论文《Attention Is All You Need》，论文中提出了transformer模型，其核心就是self-attention的架构，这一突破性成果不仅洗遍了NLP的任务，也在CV中取得了非常好的效果，有大道至简的感觉。本文通过一个通俗易懂的例子¹来介绍self-attention。

（注：本文例子完全来在参考文章，包括文章的gif动图，感谢作者的文章）

介绍

接下来将通过一下几个步骤来介绍²：

预处理输入数据
初始化权重
计算key，query 和value
计算输入值的注意力得分
计算softmax层
注意力得分与value相乘
对6中结果加权求和，并得到第一个输出值
重复4-7，计算其余输入数据的输出值

预处理输入数据

在这里插入图片描述

本例中我们选择三个输入值，已经通过embedding处理，得到了三个词向量。

Input 1: [1, 0, 1, 0] 
Input 2: [0, 2, 0, 2]
Input 3: [1, 1, 1, 1]

初始化权重

权重包括三个，分别是query的 $W_q$ ，key的 $W_k$ 以及value的 $W_v$

最低0.47元/天解锁文章

关注

10
点赞
踩
21

收藏

觉得还不错? 一键收藏
2
评论
图文理解自注意力(self-attention)

谷歌在2017年发表了一篇论文《Attention Is All You Need》，论文中提出了transformer模型，其核心就是self-attention的架构，这一突破性成果不仅洗遍了NLP的任务，也在CV中取得了非常好的效果，有大道至简的感觉。本文通过一个通俗易懂的例子1来介绍self-attention。（注：本文例子完全来在参考文章，包括文章的gif动图，感谢作者的文章）介绍接下来将通过一下几个步骤来介绍：预处理输入数据初始化权重计算key，query 和value计算输入
复制链接

扫一扫

专栏目录

数学编程 CSDN认证博客专家 CSDN认证企业博客

码龄6年

20: 原创

15万+: 周排名

149万+: 总排名

2万+: 访问

: 等级

283: 积分

5: 粉丝

21: 获赞

3: 评论

70: 收藏

私信

关注

分类专栏

分词 1篇
词云图 1篇
机器学习 9篇
算法 9篇
图解算法 5篇
python 10篇
数学 2篇

最新评论

图文理解自注意力(self-attention)
每日的坚果: 很好的文章！简单有效的代码往往能理解更深刻
图文理解自注意力(self-attention)
小小兔与胖虎虎: 找了几天，只有博主把这个机制讲清楚了。
PyTorch预训练Bert模型
CCXS: 请问数据集下载不下来是什么原因啊，报错是因为打不开网站

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。