transformer学习——注意力、自注意力、交叉注意力、多头注意力

  1. 注意力机制、自注意力机制、交叉注意力机制
    1. 注意力机制的查询和键是不同源的,常见于Encoder-Decoder模型中,例如在中译英模型中,查询是中文单词的特征,键是英文单词的特征
      1. 下图,注意力被引导至书的原因是查询(自主性提示,想读一本书)和键(非自主性提示,书的特征)相互作用,引导值(输入,书的信息)被看到。
         
      2. 自注意力机制(输入是一个batchsize,即多个样本,即QKV同源)
      3. 交叉注意力机制(输入是不同特征空间的数据,例如文本和图像,即Q与KV不同源),自注意力机制和交叉注意力机制的作用机制相同,只不过输入不同,因此可以用同一个函数表示
  2. 多头注意力机制
    1. 整体过程
    2. 具体过程 (QxK转置xV得到Z)
    3. 这里注意,多头只是改变特征维度,而不是样本数,样本从始至终是2个,即2个单词,但是其特征维度一直在变化,8个头,每个头的维度是3,因此合并后是24,即z拼接起来长度是24,宽度是2,与W0矩阵乘,得到Z。和单头24的区别在于,8头的长度3的QKV是每个头内单独计算的,不交互,而如果单头长度24,QKV会全部相互作用。
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值