transformer学习——注意力、自注意力、交叉注意力、多头注意力

最新推荐文章于 2024-08-16 22:37:09 发布

特立独行的Q

最新推荐文章于 2024-08-16 22:37:09 发布

阅读量127

点赞数 2

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/m0_72708335/article/details/141217835

版权

注意力机制、自注意力机制、交叉注意力机制
1. 注意力机制的查询和键是不同源的，常见于Encoder-Decoder模型中，例如在中译英模型中，查询是中文单词的特征，键是英文单词的特征
  1. 下图，注意力被引导至书的原因是查询（自主性提示，想读一本书）和键（非自主性提示，书的特征）相互作用，引导值（输入，书的信息）被看到。
  2. 自注意力机制（输入是一个batchsize，即多个样本，即QKV同源）
  3. 交叉注意力机制（输入是不同特征空间的数据，例如文本和图像，即Q与KV不同源），自注意力机制和交叉注意力机制的作用机制相同，只不过输入不同，因此可以用同一个函数表示
多头注意力机制
1. 整体过程
2. 具体过程（QxK转置xV得到Z）
3. 这里注意，多头只是改变特征维度，而不是样本数，样本从始至终是2个，即2个单词，但是其特征维度一直在变化，8个头，每个头的维度是3，因此合并后是24，即z拼接起来长度是24，宽度是2，与W0矩阵乘，得到Z。和单头24的区别在于，8头的长度3的QKV是每个头内单独计算的，不交互，而如果单头长度24，QKV会全部相互作用。

关注