Transformer的自注意力计算图示

自注意力机制是Transformer最核心和最难懂的部分,理解了Self-Attention,理解后面的就容易多了。结合图示,记录一下我的推导过程,重点关注矩阵是怎么计算得来的,看起来会比较清晰易懂。不当之处敬请批评指正:
“The”注意力集中在了哪些词?
图1 “The”注意力集中在了哪些词?

自注意力计算图解图2 自注意力计算图解

说明一下,手写里面说到期望得到一个同样的矩阵,不是说和输入的维度一模一样的,只是说各个单词之间具有关联的矩阵而已。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值