注意力机制：认知模型与计算机应用_holistic reinforcement learning: the role of struc-CSDN博客

本文链接：https://blog.csdn.net/thousandsofwind/article/details/104938473

本文深入探讨了注意力机制在人类认知模型中的理论，包括经典的聚光灯模型、信息选择模型和注意力分配模型。接着，讨论了脑科学研究中注意力的作用，以及在计算机领域，尤其是NLP、CV和RL任务中注意力机制的实现，如软注意力、全局与局部注意力、基于Query的注意力等。这些应用展示了注意力如何帮助计算机更有效地处理信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注意力机制：认知模型与计算机应用

“注意力机制”在风靡计算机神经网络设计之前，首先是一种被广泛接受的人类认知方法。本调研文稿将首先从人类认知出发，讨论几种经典的人类注意力模型，和人类脑的研究的进展；然后我们将讨论计算机领域对“注意力”概念的借用与实现，从NLP，CV，RL三大领域说明目前计算机模拟和应用attention的方法。

1. 基于注意的认知模型

几乎所有的注意力模型都基于一个假设，外界存在大量的，超出了人们大脑处理能力的信息，而人们需要选择性的处理这些内容。

1.1 经典的注意力模型

1.1.1 基于视觉选择的注意力模型

视觉选择模型是一类最直观的注意力模型，关系到当前我们在观察什么。

聚光灯假设是最早期的视觉选择模型，这种模型认为，注意力仿佛认知系统中的聚光灯，处于聚光灯中心位置的信息被最细致的处理，而聚光灯外的信息则被忽略。人能够灵活的决定这个聚光灯的指向。

Treisman & Gelade（1980）提出了一种特征整合模型。他们认为模式识别具有两个阶段。在第一个阶段，信息得到统一的并行处理，形成所谓的“特征地图”；而在第二个阶段，也即“特征整合”阶段，需要人主动控制自己的注意力而辨认出客体。

Desimone & Duncan 提出了偏向竞争模型。他们将聚光灯模型形容成基于位置（location-based）的的注意力，而特征整合则是基于客体的（object-based）。他们认为大脑的不同皮层应用到了不同的注意力方式，视觉任务的完成需要两者的协调

1.1.2 基于信息选择的注意力模型

基于信息选择的注意力模型主要考虑除视觉选择外的其他信息选择，主要是时序的线性信息如何被有效的组织利用。“过滤器”为其中的一大类经典模型，这类方法认为注意力机制，就像是一把筛子从当前（或过去累积的记忆中）筛选出重要信息进入高级分析阶段。

Donald Eric Broadbent（1958）提出了早期选择模型，也称过滤器模型，单通道模型。早期选择式的过滤器直接在感知阶段进行信息的选择性录入。过滤器选择信息<新异、较强、具有生物意义刺激、受人期待的信息>进入高级分析阶段，其余暂存于某种记忆中，并迅速衰退。

Anne Marie Treisman（1960, 1964）提出衰减的多通道模型。衰减的理论依赖于早期选择模型。但是Anne注意到，残存于记忆中的迅速衰减的记忆在之后的时刻可能被唤起，这意味着，如果人的认知是以类过滤器的方式存在，那么必然不只有一个过滤器在其中起到作用。人的认知中同时存在多个感知通道，这些通道具有不同的兴奋阈限。

J. Anthony Deutsch & Diana Deustch（1963）在前两者的基础之上又提出了晚期选择模型。他确实赞同多通道的存在，并且同时认为，所有通道的信息都会进入高级分析，而注意力作用于对所有通道信息的重要性整合。

Johnston&Heinz（1978）所提出的多态模型设想了一个更为灵活的注意力系统。他将认知分为三个阶段，而注意力会根据实际任务在其中工作。1.感觉阶段：物理特征得到加工，建立感觉表征（过滤器模型）；2.语义阶段：构建起刺激的语义表征。比感觉加工付出更多努力；3.意识阶段：感觉表征或语义表征进入意识（后期选择模型）。

Neisser（1976）等提出的图式模型是一类更为特殊的信息选择模型。不同于信息在不同通道的过滤，图式模型强调了信息对于图式的激活，图式又对隐含信息进行反向激活的过程。图式模型不仅是知识的统一表示方式，也是组织经验的机制。对象和关系未被填充的空架构，简单图式可以作为对象被嵌入到复杂图式；图式中的空插槽具有默认值，可以通过上下文填写；不同领域的概念可以通过图式联系。

1.1.3 基于注意力分配的模型

基于注意力分配的模型将注意力考虑为一种资源，通过分配这种资源，可以更好的完成任务。

Danial Kahneman（1973）提出资源分配/限制模型，这种模型考虑到并行任务具有不同的价值，从而将认知能力不均匀的分派给不同的任务。

Schneider&Shiffrin（1977）提出双加工理论。控制性加工（注意性加工）：需要应用注意的加工，容量有限，可灵活地用于变化着的环境；自动加工：不受人控制的加工，不可避免，无须注意，没有容量限制，高度有效性，且一旦形成难以改变。

我们能够注意到，注意力机制的本质就是对所接受到的信息的选择性激活。这个选择可能会出现信息处理的各个阶段，一方面是为了避免不重要信息的干扰，另一方面是为了更高效率的发挥认知网络本身所具有的能力。

1.2 脑科学研究中的attention

脑神经科学较新的研究成果更深地揭示了注意力机制在激活，选择和控制方面起到的作用。尽管都涉及到信息的选择，不同的注意力很可能涉及到了相对独立的脑回路。其中警报引起的注意力更多地侧重对新异信息反应，既关心所处状态（任务）的变化；而定向和执行中的注意力，更多的涉及到对于任务相关信息的选择。总之，注意力是一种与意识密切相关的信息选择，恰当的注意力意味着最佳的激活水平，从而允许人们自如的控制自己的行动。

一份更新的工作借助强化学习解释了人类认知中注意力机制的角色。它同样赞成注意力具有约束维数的重要意义，同时特征的价值驱动注意力的转移