李宏毅老师multi-head self-attention

需要多少个head是需要自己调参的

在找相关性的时候使用的是q并且与k点乘,但两个事物的相关性可能有不同的种类的相关性,所以可能需要多个q,来表示多种不同的相关性,

 

如何得到两个不同的q,即再乘以不同的wq1,wq2,现在已经可以得到多个头了,那多个头怎么得到v?

由于有两个头,但原理与之前一样,此时q1,q2两头,其中q1只与k1点成,在与v1点乘得到b1,q2只与k2点成,在与v2点乘得到b2

最后将b1,b2乘以某个权重

 

之前的ppt中只讲了如何得到各个input之间的联系,及注意力的信息,但却少了位置信息,在判断英语单词词性时候,如动词一般不怎么放置在句首,所以在判断的时候如果发现动词出现在了句首就小可能的是动词 。所以此时位置信息就比较重要

加入位置信息ei(暂时用不到未仔细看,视频21min57s)

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值