24.9.26学习笔记

最新推荐文章于 2024-09-28 20:34:52 发布

kkkkk021106

最新推荐文章于 2024-09-28 20:34:52 发布

阅读量571

点赞数 20

文章标签：学习笔记

本文链接：https://blog.csdn.net/m0_64006292/article/details/142548460

版权

注意力机制是深度学习领域中的一项重要技术，它最初灵感来源于人类视觉处理系统中的选择性注意现象。在深度学习模型中，注意力机制允许模型在处理信息时，更加关注输入数据的某些部分而忽略其他部分，这可以提高模型对关键信息的捕捉能力，从而提升模型的性能。

假设你在阅读关于“暹罗猫”的文章时，只关注一个特定的特征，比如“聪明”。你只会在文章中搜索和“聪明”相关的信息，忽略其他所有特征。这就是单头注意力，你一次只关注一个特征。

例子：

现在，你不仅想知道“暹罗猫”是否聪明，还想知道它们的外貌特征和社交习性。你同时从三个角度评估信息：智力、外观和社交性。这就是多头注意力，你同时关注多个特征。

例子：

你在阅读文章时，注意到句子之间相互关联的信息。比如，你读到“暹罗猫非常聪明”，然后又读到“暹罗猫喜欢社交”，你意识到聪明可能和它们社交习性有关。这就是自注意力，文章中的每个句子（元素）都可能与其他句子相关联。

例子：

假设你现在在读两篇文章，一篇是关于“暹罗猫”的，另一篇是关于“波斯猫”的。你想比较这两种猫的不同之处。你将两篇文章的信息结合起来，关注它们之间的差异。这就是互注意力，你将两个不同序列的信息结合起来。

例子：

在实际的机器学习模型中，这些注意力机制可以帮助模型更好地理解和处理数据。单头注意力简化了问题，多头注意力增加了模型的丰富性，自注意力让模型能够捕捉序列内部的关系，而互注意力则让模型能够处理和比较两个不同序列的信息。

在自注意力机制中，注意力分数（Attention Scores）是衡量查询向量（Query）与键向量（Key）之间相似度的值。这些分数用于确定每个查询向量在处理输入序列时应该关注哪些键向量。具体来说，注意力分数越高，表示查询向量与键向量之间的相似度越大，相应的值向量在最终输出中的权重也就越大。

关注