图文理解自注意力(self-attention)

本文通过一个实例深入浅出地介绍了Transformer模型的核心——Self-Attention机制。从预处理输入数据、初始化权重到计算注意力得分,再到softmax层、加权求和,详细解释了Self-Attention如何工作,揭示了其捕捉全局信息并行计算的优势。
摘要由CSDN通过智能技术生成

谷歌在2017年发表了一篇论文《Attention Is All You Need》,论文中提出了transformer模型,其核心就是self-attention的架构,这一突破性成果不仅洗遍了NLP的任务,也在CV中取得了非常好的效果,有大道至简的感觉。本文通过一个通俗易懂的例子1来介绍self-attention。

(注:本文例子完全来在参考文章,包括文章的gif动图,感谢作者的文章)

介绍

接下来将通过一下几个步骤来介绍2

  1. 预处理输入数据
  2. 初始化权重
  3. 计算key,query 和value
  4. 计算输入值的注意力得分
  5. 计算softmax层
  6. 注意力得分与value相乘
  7. 对6中结果加权求和,并得到第一个输出值
  8. 重复4-7,计算其余输入数据的输出值

预处理输入数据

在这里插入图片描述

本例中我们选择三个输入值,已经通过embedding处理,得到了三个词向量。

Input 1: [1, 0, 1, 0] 
Input 2: [0, 2, 0, 2]
Input 3: [1, 1, 1, 1]

初始化权重

权重包括三个,分别是query的 W q W_q Wq,key的 W k W_k Wk以及value的 W v W_v W

  • 10
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值