Attention is all you need注意的点

本文详细探讨了Self-Attention机制,包括Dot-Product Self-Attention的矩阵运算,Multi-Head Self-Attention的实现过程,以及Encoder和Decoder的Mask应用。通过深入解析Q、K、V的计算与归一化,阐述了Attention如何捕捉序列中词语间的相关性。
摘要由CSDN通过智能技术生成

在这里插入图片描述
这里是对self-Attention具体的矩阵操作,包括怎么separate head,如何进行的QK乘法等细节做了记录,以便自己以后查看。

Dot-Product Self-Attention

在这里插入图片描述

Note:
  1. 其中的 X n , d m o d e l X^{n,d_{model}} Xn,dmodel一般是seq序列,n为序列的长度, d m o d e l d_{model} dmodel为序列的emedding维度。在self-attention中 d k d_k dk d v d_v dv是相等的。
  2. Q K T d k \frac{QK^T}{\sqrt[]{d_k}} dk
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值