Cross Attention和 Self- Attention 的区别？

最新推荐文章于 2025-03-24 20:31:14 发布

不当菜鸡的程序媛

最新推荐文章于 2025-03-24 20:31:14 发布

阅读量5.4k

点赞数 6

文章标签：深度学习

本文链接：https://blog.csdn.net/vivi_cin/article/details/133361681

版权

本文详细比较了Self-Attention和CrossAttention，前者用于同一序列内元素间的关系，后者处理两个不同序列间的联系。通过实例解释了两者在计算注意力分数上的差异及其在实际任务中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Cross Attention和Self-Attention都是深度学习中常用的注意力机制，用于处理序列数据，其中Self-Attention用于计算输入序列中每个元素之间的关系，Cross Attention则是计算两个不同序列中的元素之间的关系。它们的主要区别在于计算注意力分数时所用的查询、键和值的来源不同。

在Self-Attention中，输入序列被分成三个向量（即查询向量，键向量和值向量），这三个向量均是来自于同一组输入序列，用于计算每个输入元素之间的注意力分数。因此，Self-Attention可以用于在单个序列中学习元素之间的依赖关系，例如用于语言建模中的上下文理解。

在Cross Attention中，有两个不同的输入序列，其中一个序列被用作查询向量，另一个序列被用作键和值向量。Cross Attention计算的是第一个序列中每个元素与第二个序列中所有元素之间的注意力分数，通过这种方式来学习两个序列之间的关系。例如，在图像字幕生成任务中，注意力机制可以用来将图像的特征与自然语言描述的句子相关联。

下面是一个简单的例子，演示Self-Attention和Cross Attention的区别。假设有两个序列A和B，它们分别表示句子和单词：

A = ["The", "cat", "sat", "on", "the", "mat"]

B = ["mat", "cat", "dog", "on"]

在Self-Attention中，我们会用A本身的向量来计算注意力分数，查询向量、键向量和值向量都是从A中提取的。例如，我们可以通过将A传递给一个Self-Attention层来计算每个单词之间的注意力分数。

在Cross Attention中，我们将B的向量用作键和值向量，而A的向量用作查询向量。这允许我们计算句子中每个单词与单词序列B中的所有单词之间的注意力分数。例如，我们可以通过将A和B传递给一个Cross Attention层来计算单词和单词序列B之间的注意力分数。

总之，Self-Attention和Cross Attention都是非常有用的注意力机制，它们分别用于处理序列内部和跨序列的关系。