Transformer Encoder multi-head-Attention的理解

将第一列的所有词表示成[6,9]的词向量,3个batch_size形成一个3维的矩阵向量
[batch_size,seq_length,embedding_dim]=[3,6,9]
在这里插入图片描述
初始化3个[9,9]的权重矩阵,分别是Query_w,Key_W,Value_W,用于模型参数更新
在这里插入图片描述
Query_w,Key_W,Value_W分别于每一batch_size相乘得到Q,K,V3个矩阵
在这里插入图片描述
超参数设置head=3,将Q,KV分别除以3,得到3个多头的q1,q2,q3,k1,k2,k3,v1,v2,v3
最终Q,K,V的维度变成了[batch_size,seq_length,h,embedd_dim/h]=[3,6,3,3]
在这里插入图片描述
将上述的Q,K,V的1维,2维通过transpose互换,得到Q,K,V=[batch_size,h,seq_length,embedd_dim/h],根据注意力的计算公式K需要转置,在最后一维和倒数第2维进行转置互换transpose(-2, -1)) ,为的就是获得词与词之间的关系
取一个头q1,k1举例计算,根据最终计算结果可知,多头的目的是并行执行
,获取一句话单个词与其他词的关系,理解句子上下文的信息
在这里插入图片描述
根据注意力计算公式得到一个头的attention
在这里插入图片描述
在这里插入图片描述
将多头的的attention进行拼接,经过全连接层输出结果
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值