From Human Attention to Computational Attention (Foundation2)

最新推荐文章于 2025-05-09 16:30:00 发布

无妄无望

最新推荐文章于 2025-05-09 16:30:00 发布

阅读量1.2k

点赞数 34

文章标签：人工智能深度学习笔记学习

本文链接：https://blog.csdn.net/PLANTTHESON/article/details/135059573

版权

Chapter 3 How to Measure Attention?

对注意力感兴趣的研究人员通常有以下一个或多个目标:
(1)识别环境中被观察者选择和优先考虑的信息源;
(2)量化注意力对任务表现的影响;
(3)识别注意力的神经关联。
在考虑测量注意的方法时，区分显性和隐性定向机制是很重要的。显性注意力是通过身体的动作来表达的，可以通过确定相关效应器的位置和速度来直接测量——主要是眼睛、头和手。隐蔽定向指的是在没有身体运动的情况下引导注意力的能力，主要通过任务表现的差异(例如，反应时间)来衡量，而这种差异不能归因于外部刺激的变化。

在本章中，我们将重点关注定量技术，以提供宏观尺度上注意力反应的精细时空信息。我们没有讨论许多心理物理范式，这些范式已经被用来根据观察者判断的速度和准确性来推断注意力。这里不介绍使用微电极对单个神经元或多个神经元进行微测量。然而，在第6章中，描述了使用微电极来测量单个神经元的反应。

在宏观尺度上，注意反应既可以直接在大脑中测量，也可以通过参与者的行为间接测量。只有一种技术,这里描述的是基于参与者主动反馈的:鼠标跟踪。这是因为鼠标追踪反馈与眼动追踪非常接近，这是一种未来感兴趣的新兴方法:它需要更少的时间和更少的资金来进行，并且比传统的眼动追踪提供更多的数据。所有其他方法都是直接或间接的，提供客观的注意力度量。第一部分介绍了间接法，第二阶段主要介绍了直接法

3.1 Indirect Measures of Attention

3.1.1 Eye Tracking: A Gold Standard for Overt Attention

如果说“眼睛是心灵的窗户”，那么眼动追踪就是看它一眼。事实上，眼动追踪可能是测量视觉注意力最广泛使用的工具。虽然不移动眼睛也可以引导注意力，但通常情况下，人们会看他们关注的地方，反之亦然。这一观点得到了充分的神经生理学支持，因为几个与注意力有关的结构——前额叶皮层、顶叶皮层和中脑——也参与指导随意的眼球运动。

眼动仪是一种确定眼睛相对于头部(眼在头部)或外部参照系(眼在空间)的方向的设备。如果头部位置是已知的，那么眼睛的轨道位置(眼睛在头部)就足以确定凝视的方向(眼睛在空间)。

眼球追踪技术随着时间的推移而不断发展。不同的技术在[1]中有描述。最早被广泛应用的技术之一是眼电图(EOG)。眼睛本身产生沿角膜-视网膜轴方向的电偶极子。这种电位可以通过在眼睛周围的皮肤上放置电极来测量。通过这些电极，可以重建眼睛相对于头部的方向。为了确定眼睛在空间中的方向，头部必须连接到一个固定的系统(下巴托或咬条)，或者除了EOG之外还必须使用头部跟踪系统。EOG信号被皮肤电导或面部肌肉的活动干扰。可靠的测量通常需要在试验中取平均值。

一种更精确的方法在20世纪60年代被开发出来[2,3]，使用巩膜搜索线圈。在这里，一圈金属线被嵌入放置在角膜周围的环形隐形眼镜中。小电流通过导线，产生磁偶极子，其方向随眼睛移动。受试者将头部置于由一对大磁场线圈(直径约0.6-0.9 ms)产生的振荡磁场中。电子设备被用来感知巩膜线圈的方向，从而判断眼睛的方向。该系统测量眼睛相对于磁场线圈的方向，磁场线圈固定在空间中。头部通常需要稳定，以避免混淆眼睛的旋转和头部的平移运动。一个单独的头部线圈可以用来记录头部运动。双目搜索线圈系统允许实验者重建会聚角。扭眼运动也可以被记录下来。巩膜搜索线圈系统提供连续的时间分辨率，仅受限于前端滤波和用于将模拟信号转换为数字样本的记录设备的采样率。空间分辨率通常为0.1英寸的视角或更好，噪声极低。隐形眼镜搜索线圈只能佩戴很短的时间(<30分钟)，因为它们在与巩膜接触的时间内会导致眼压升高。这种方法只能在训练有素的临床眼科医生的监督下使用。

目前大多数商业和研究解决方案使用的技术是视频视觉术(VOG)，基于摄像机来检测瞳孔和角膜反射。红外线光源照亮眼睛。光被瞳孔反射(亮瞳孔)或吸收(暗瞳孔)，图像处理软件(通常嵌入专用硬件中)通过在虹膜边缘填充或拟合椭圆来检测瞳孔的边缘(图3.1)。这种处理也提供了瞳孔大小的估计。十字准星确定瞳孔中心的水平和垂直位置。有些光也会被角膜反射，称为角膜反射(CR)。瞳孔和角膜反射的位置对头部运动很敏感。然而，这种差异(瞳孔- CR)忽略了头部运动的影响，并给出了在空间中眼睛方向的可靠估计。然而，为了精确测量，用下巴托或咬条来稳定头部是更合适的。

必须记住，VOG跟踪器是在眼睛的二维图像上运行的。为了获得眼睛的方向，必须考虑相机相对于眼睛的几何形状以及3D球体在2D图像上的投影，进行适当的变换。或者，一个匹配眼睛位置的查找表去跟踪输出可以通过让受试者盯着已知位置的目标来产生。应使用至少九个位置的网格进行校准。当拍摄对象直视前方(主位置)时，相机的光学元件与眼睛的光轴对齐时，VOG系统的工作效果最好。放置在眼睛前面的红外线或“热”镜可以用来实现这种对齐。红外线反射镜对可见光是透明的。这样，被摄主体可以通过镜子直接看到视觉显示或场景，而相机则被放置在侧面。

VOG系统的时间分辨率受限于相机的帧速率和识别瞳孔和角膜反射的图像处理算法的速度。商用系统的范围从30赫兹到1000赫兹以上。空间分辨率受相机分辨率的限制。通常，这是通过使用长焦镜头和特写镜头来放大眼睛的图像来增强的。许多系统提供与搜索线圈相当的空间分辨率(0.1英寸的视角或更小)。VOG系统的缺点包括对杂散光的敏感性，这可能导致眼睛位置的明显变化。这些系统对眼睛的颜色也很敏感，由于不受控制的反射，戴眼镜的人可能无法工作。此外，当受试者眨眼时，这些系统无法正常工作，通常会在这种情况下将输出设置为默认值。

虽然基本技术在大多数情况下是相同的，但眼动仪的体现方式可能非常不同。主要的眼动追踪厂商提出了不同形式的系统[4-6]。

一些眼动仪被直接并入屏幕(图3.2)，当它被用来呈现数据时。这种设置的优点是校准时间很短，但它只能与自己的屏幕一起使用。

单独的摄像机需要一些额外的校准时间，但测试可以在任何屏幕上进行，甚至可以在真实场景中使用需要校准系统的场景摄像机进行测试(图3.3)。

眼动追踪眼镜(图3.4)可以在非常生态的环境中使用，甚至在现实生活场景之外。这些系统的一个问题是，由于观看的场景不相同，因此不容易汇总来自多个观看者的数据。聚合需要对场景进行非平凡的注册，这可能意味着在实验之前要安装标记。

便宜的设备(图3.5)进入市场，相当精确的相机售价不到100欧元[7]，这是专业眼动仪价格的一小部分。这些眼动仪的一个问题是，它们是用最少的软件打包的，通常很难同步刺激和相关的眼动数据。

这些眼动仪主要用于游戏应用中的实时人机交互设备。尽管如此，有一些开源项目允许记录Ogama等低成本眼动仪的数据[8]，但主要是静止图像，而不是移动刺激。

最后，基于网络摄像头的软件是免费的[9]。它们能够提供高质量的数据，并与现有的网络摄像头远程使用[10]。

眼球运动行为具有丰富多样的特征，表明注意力。在灵长类动物中，自发的眼球运动包括扫视(快速改变位置，峰值速度>> 100km /s)，收敛(两眼对齐的变化)和平滑追踪(缓慢运动，通常低于100km /s，跟踪小的移动目标)。在这些运动之间是固定的时期，尽管即使眼睛相对静止，微观运动(漂移、震颤和微跳)仍可能发生。可以使用聚类算法[11]或简单地使用双阈值来检测注视:时间阈值和空间阈值，以确保凝视聚焦在一个小区域。注视持续时间可以用来衡量注意力[12]。固定点可用于生成扫描路径(图3.6)或扫描路径(图3.7)。热图是扫描路径的低通滤波累积，它表示每个像素的平均注意力吸引。通常，要使结果具有显著性，每个刺激至少需要10个参与者。

在注视过程中，被试经常进行非常小的眼球运动，称为微扫视(microsaccades)[13,47]。这些眼跳的幅度小于2度的视角。自发微跳通常与注意力相关[14]。

当观看固定深度的静态场景时，最常见的眼球运动是扫视，通常大约发生2-3次/秒。利用基于眼睛速度或加速度的算法，可以在几毫秒内检测到扫视的开始。相对于目标的突然出现，扫视的延迟时间通常为150-300毫秒。扫视潜伏期的变化可能与注意力有关[15]。注意可能改变扫视方向[16]，或者导致扫视轨迹弯曲[17]。

3.1.2 Mouse Tracking: The Low-Cost Eye Tracking

如果眼动追踪是研究显性视觉注意的最可靠的基础事实，那么除了专业设备的高成本之外，它还有几个缺点:•对操作员来说，它需要最少的实践。

•用户头可能需要稳定。

•校准过程可能很长。

•照射眼睛的红外光可能导致眼睛疲劳，尤其是在长时间测试时。

•根据用户眼睛的颜色或是否戴眼镜，该系统的工作效果可能会差很多。

获取视觉注意力数据的一种更简单的方法可能是使用鼠标跟踪。当Internet浏览器打开时，可以使用像JavaScript这样的客户端语言精确地跟踪鼠标。鼠标在屏幕上的精确位置既可以使用自制代码捕获，也可以使用现有的库(如[18,19])捕获。这种技术可能看起来不太可靠;然而，它的准确性取决于实验的背景。

第一种情况是参与者没有意识到鼠标运动被记录下来的事实。在这种情况下，鼠标移动不够准确。事实上，手并不会自动跟随眼睛的注视，即使手(因此鼠标)跟随注视的趋势是可见的。例如，有时鼠标只用于滚动页面，眼睛离鼠标指针很远。

第二种情况是参与者意识到这个实验，并且有一个任务要完成。这可以从简单的“将鼠标指向你所看的地方”指令(如[20]中首次使用鼠标跟踪进行显著性评估)到最近的方法(如[21]中的SALICON)，其中使用模仿中央凹分辨率的多分辨率交互式光标来鼓励人们将鼠标光标指向他们所看的地方。事实上，当远离光标的图像分辨率降低时，人们倾向于指向他们感兴趣的位置，以获得这些区域的全分辨率视图。

在第二种情况下，当参与者意识到自己的鼠标运动跟踪时，鼠标跟踪的结果与眼动跟踪非常接近，Egner和Scheier在他们的网站上(图3.8)显示[22]。然而，小的或无意识的眼球运动可能会被遗漏。

鼠标跟踪的主要优点是价格低廉，对用户来说完全透明(他们只需要移动鼠标指针)。输出可以与眼动追踪相同。它可以是热图(图3.9)，也可以是扫描路径、原始数据等。

然而，鼠标跟踪也有几个缺点:•鼠标指针所在的第一个地方非常重要，因为观察者可能会寻找指针。它应该位于图像的外部还是在图像的中心?理想情况下，指针最初应该随机出现在图像中，以避免引入指针初始位置的偏差。

•鼠标跟踪只突出显示对观察者来说有意识的重要区域。这更多的是一个理论上的缺陷，而不是一个实际的缺陷，因为人们应该尝试预测那些明显有趣的区域。

•指针隐藏与它重叠的图像区域;因此，指针的位置永远不会在重要的区域，但非常接近他们。这个缺点可能是部分的，通过在整个观测器集的平均值之后执行的低通滤波步骤消除。也可以像[21]那样制作透明指针。

自[20]以来，鼠标追踪一直被忽视，几乎没有出版物，并且不知何故被认为是“穷人的眼球追踪”。然而，使用深度神经网络的基于学习的计算模型的兴起改变了这种情况，这些模型需要大量的数据集来提供正确的结果。鼠标跟踪可以由几乎无限数量的参与者在线完成，从而产生鼠标跟踪数据的大数据集。由于眼动追踪只能提供有限数量的刺激和每个刺激的用户的数据集，即使它们更精确，鼠标跟踪的发展也具有一定的优势，可以补充眼动追踪。此外，眼动和手动的结合使用也可以深入了解自然任务中的注意力部署[22]。

3.2 Direct Measures of Attention

3.2.1 EEG: Get the Electric Activity from the Brain

EEG技术(脑电图)使用放置在参与者头皮上的电极。这些电极放大了源自大脑的电位。这种技术的一个问题是头骨和头皮会减弱这些电信号。

虽然经典的研究装置有大量的电极(图3.10)，如[23,24]等制造商，但一些低成本的商业系统，如Emotiv[25]更紧凑，更容易安装和校准(图3.11)。虽然后者更容易使用，但它们显然不那么精确。

脑电图研究提供了一些有趣的结果，如选择性视觉注意期间伽马波段的调制[26]。其他论文[27]也提供了关于注意力转移期间α波段变化的线索。

P300事件相关电位(ERP)是一个非常重要的关于注意力的线索，可以用脑电图来测量。

1978年Näätänen等人[28]对听觉注意的研究证明，与频繁刺激相比，当被试面对罕见刺激时，诱发电位的消极反应会增强。这种负性成分被称为失配负性(MMN)，并在几个实验中被观察到。

MMN发生在刺激后100-200毫秒，这个时间完全处于前注意阶段的范围内。

根据实验的不同，分离出不同的听觉特征:音频[29]、音频强度[30-32]、空间起源[33]、持续时间[34]和语音变化[35]。所有这些特征都不是单独显著的，但显著性是由这些特征中的每一个的稀有性引起的。

MMN信号对视觉注意的研究已经与音频注意一起进行了多次研究[36-38]。但是做了一些实验，只使用视觉刺激。Crottaz-Herbette的论文[39]在与听觉MMN相同的条件下进行了视觉实验，她发现在看到罕见刺激时诱发电位的负向性比看到频繁刺激时诱发电位的负向性高。视觉MMN发生在刺激后120 ~ 200 ms。200毫秒边界大约与启动第一次眼球运动所需的200毫秒相匹配，从而吸引“专注”的注意机制。在音频MMN检测方面，受试者只需要听到刺激，不需要完成特定的任务;因此，这个MMN组件是预先注意的、无意识的和自动的。这项研究和其他研究[40]也表明，MMN反应存在于体感觉模态(触觉、味觉等)。

MMN似乎是大脑反应的一个普遍组成部分，反映了一个无意识的预先注意过程。通过P300测量，任何未知的刺激(新奇的、罕见的)都会非常显著。稀有或新奇是视觉、听觉和所有其他感官的注意力机制的主要驱动力。

3.2.2 Functional Imaging: fMRI

MRI是磁共振成像的缩写。这种成像系统背后的主要思想是，人体主要是由水组成的，而水本身是由氢原子组成的，氢原子有一个质子。这些质子具有磁矩(自旋)，大多数时候是随机定向的。核磁共振设备使用非常高的磁场(B0)来排列患者体内一小部分质子的磁矩。使用射频脉冲驱动质子自旋进入与B0正交的平面。当自旋重新定向或“放松”平行于B0的方向时，就会产生射频发射。这些辐射被捕获，并使用傅里叶反变换来构建图像，其中清晰的灰度级别意味着有更多的质子;因此，身体部位(如脂肪)水分较多，而较深的灰色显示水分较少的区域(如骨骼)。

核磁共振成像最初是一种解剖成像技术，但人们很快发现，由血液中的铁产生的敏感性伪影可以用来测量血容量和氧合。由于血容量和氧合反应神经组织的代谢需求，它们可以作为神经元活动的代理。通过这种方式，例如，当大脑中的某个区域被激活时，血流量可能会增加。血流动力学反应有多个组成部分，与神经组织的代谢和电活动有着复杂的关系。然而，fMRI成像能够检测到大脑中活跃或不活跃的区域，并且已经成为神经科学家可视化大脑中哪个区域在与注意力相关的患者运动中做出反应的一个很好的工具(图3.12)。

3.2.3 Functional Imaging: MEG

MEG是脑磁图的缩写。这个想法很简单:脑电图检测的是穿过头骨和皮肤时严重扭曲的电场，而MEG检测的是由这种电活动引起的磁场。磁场的优点是不受皮肤或颅骨的影响。

虽然这个想法很简单，但实际上磁场很弱，这使得这很难衡量。这就是为什么MEG成像相对较新的原因:使MEG有效的技术进步是基于SQUID(超导量子干涉装置)。大脑的磁场可以在超导装置中感应电，这种装置可以精确测量。

现代设备的空间分辨率为2毫米，时间分辨率为几毫秒。此外，MEG图像可以叠加在MRI解剖图像上，有助于快速定位主要活动区域。最后，MEG成像的参与者可以有一个直立的坐姿(图3.13)，这比fMRI或PET扫描的水平位置在测试中更自然。

3.2.4 Functional Imaging: PET Scan

对于fMRI, PET扫描(正电子断层扫描)也是一种功能性成像工具，因此在大脑活动的情况下，它也可以产生更高的信号。

PET扫描的主要原理是将一种轻度放射性物质注入病人体内，释放出正电子(反电子是一种与电子性质相同但带正电荷的粒子)。这些正电子几乎会立即与一个电子相遇，并发生非常高能的反应(称为湮灭)。这种湮灭将把两个粒子的全部质量转化为能量，并向两个相反的方向释放伽马光子，这将被扫描仪传感器探测到。被注射的物质会移动并固定在大脑中最活跃的区域，这意味着这些区域会出现大量的湮灭。至于fMRI, PET扫描让神经科学家知道，当患者执行注意力任务时，大脑的哪些区域被激活了。图3.14显示了一个使用PET扫描来观察大脑中闪烁视觉模式影响的例子。

3.2.5 Complementary Techniques to Manipulate Brain Activity: TMS or tDCS

TMS是指经颅磁刺激，它利用电磁感应来刺激大脑皮层的一个精确区域。电流通过线圈产生磁场。这种磁场的快速变化会诱发瞬态电场，进而影响附近神经元的膜电位。

从20世纪80年代开始，经颅磁刺激首先用于临床诊断，然后用于精神病学治疗。它现在也与其他成像方式结合使用，如功能磁共振成像，PET扫描，甚至与脑电图设备。

的确，成像技术可以帮助我们找到特定任务的大脑活动区域。然而，他们无法说出这些区域的哪一部分以及何时才是真正需要解决任务的。通过干扰大脑区域的正常功能，颅磁刺激具有很好的时空分辨率，提供了关于大脑区域何时何地对行为做出关键贡献的线索。

图3.15显示了经颅磁刺激对EEG信号(右上)、fMRI图像(左下)和PET扫描(右下)的影响。

经颅直流电刺激(tDCS)是另一种旨在提供神经刺激的方法。TMS的不同之处在于，它通过头皮上的电极将恒定电流输送到大脑感兴趣的区域。

3.2.6 Functional Imaging and Attention

正电子发射断层扫描(PET)和功能磁共振成像(fMRI)已被广泛用于探索认知功能的功能神经解剖学。MEG成像开始在该领域得到应用，如[45]。文献[46]综述了275项关于注意类型、知觉、视觉注意、记忆、语言等方面的PET和fMRI研究。根据设置和任务的不同，大量不同的大脑区域似乎参与了注意力和相关功能(语言，记忆)。这一发现再次支持了这样一种观点，即在大脑层面上，有几种注意力，它们的活动几乎分布在整个大脑。注意力从低级到高级的处理过程，从反射到记忆和情感，跨越人类所有的感官。

3.3 Summary

•眼动追踪仍然是主要在工程和计算机科学领域的黄金标准，即使它也被用于心理学。

•在计算机科学中，鼠标跟踪可以越来越多地用于建立非常大的刺激数据集来模拟注意力。

•在神经科学中，fMRI具有最佳的空间分辨率，而EEG/ERP和MEG具有最佳的时间分辨率。

•功能磁共振成像已成为神经科学中最常用的方法之一。

•将TMS或tDCS与其他成像技术结合使用，可以提供精确的线索，了解大脑区域在何时何地对行为做出关键贡献。

Chapter 4 Where: Human Attention Networks and Their Dysfunctions After Brain Damage

4.1 Taxonomies of Human Attention

为了在不断变化的环境中保持一致的行为，我们需要选择适合我们目标的刺激。另一方面，由于能力的限制，我们必须能够忽略其他不太重要的对象，它们也竞争成为我们后续行为的焦点。注意的神经机制通过整合与主体目标和感官刺激的显著性相关的信息来解决这种竞争[1]。因此，对外部信息的关注可以帮助智能体选择空间位置、时间点或特定于模态的输入[2]。其他注意过程选择、调节和维护内部产生的信息，如任务规则、反应、长期记忆或工作记忆[2]。

注意及其神经关联不是单一的现象;它们可以更好地理解为一组异构的(如果相互作用的话)流程。传统理论将注意力大致分为两个领域:选择性方面和强度方面[3]。另一方面，Parasuraman[4]确定了至少三个独立但相互作用的注意组成部分:
(1)选择，即决定对某些输入而不是其他输入进行更广泛处理的机制;
(2)警惕性，一段时间内保持注意力的能力;
(3)控制，计划和协调不同活动的能力(表4.1)。

一些作者将警觉和持续注意区分为强度域中连续体的两个极端。因此，警惕性被认为是“对环境中随机时间间隔内发生的微小变化进行检测和响应的一种准备状态”[7]，主要通过长时间、繁琐的任务——守夜——来研究，要求个体持续监测环境中的罕见事件，例如，检测雷达屏幕上不常见的光点。另一方面，当信息流动更迅速时，持续注意力会介入，需要持续的主动处理和监测[8]。例如，一名口译员在“在线”翻译一篇演讲时，被认为是在积极地保持对演讲者话语的注意力。在我们看来，这种强度范围的两端都需要保持当前的目标或任务

注意注意捕获(外源性注意)和持续(警惕)注意之间的功能和神经重叠。DAN是背侧注意网络，VAN是腹侧注意网络[5]。源自Bartolomeo[6]。图4.1和图4.3是这些大脑区域的解剖图。

记住指令，以便监控来自环境的传入信息，并产生满足目标/任务要求的(电机)输出。从这个意义上说，警惕性和持续注意力都需要一种通常被称为“自上而下”的过程[9]。

总而言之，注意力必须允许生物体成功地应对不断变化的外部和内部环境，同时保持其目标。

这种灵活性要求机制(a)允许处理小说，可能是有利的或危险的意外事件，以便以接近或回避行为做出适当的反应，并且(b)允许在分散注意力的事件下维持最终的行为[10]。例如，注意力可以以相对反射的方式(例如，当一辆鸣笛的汽车吸引行人的注意时)或以更可控的方式(例如，当行人监视交通灯等待“通行”信号出现时)引导到空间中的物体上。因此，不同的注意力过程服务于这两个部分冲突的目标是合理的[11]。

实验心理学中的传统区分是指将注意力导向新事件的更多外源性(或刺激依赖的，自下而上的)过程[12,13]，而更多内源性(或策略驱动的，自上而下的)导向过程，后者负责将生物体的注意力导向相关目标，尽管环境中存在干扰物[14]。

4.1.1 Spatial Selective Attention

空间选择性注意的概念在操作上是指位于被注意区域的物体相对于位于非被注意区域的物体在处理速度和精度上的优势[15]。

当多个事件竞争有限的处理能力和行为控制时，注意选择可以解决竞争。Desimone和Duncan在其颇具影响力的选择性注意神经认知模型中[16]提出，基于生物体的目标和物体的感官特性，神经注意过程会偏向于某些刺激而不是其他刺激，从而优先考虑某些物体。

这些选择性注意过程的一个子集处理空间中的物体。在实验室外的生态环境中，智能体通常通过将其目光、头部和躯干转向被关注刺激的空间位置来定位重要刺激[17]。这样做是为了使刺激与最高分辨率的感觉表面部分(例如，视网膜中央凹)对齐。这允许对检测到的刺激进行进一步的感知处理，例如，将其分类为有用的或危险的对象。即使是非常简单的人工生物，当其处理资源不足以并行处理整个视觉场景时，也会表现出定向行为[18]。然而，注意力也可以在没有眼球运动的情况下在空间中定向，即所谓的“隐蔽”定向[15]。

4.1.2 Cued Detection Tasks

波斯纳和他的同事开发了一个手动反应时间(RT)范式来研究注意力的隐蔽定向。受试者呈现三个水平排列的盒子(图4.2)。他们盯着中央的盒子，按下a目标键(星号)出现在两个侧框中的一个。目标之前有一个提示，指示两个侧框中的一个。提示可以是中心提示(在中心框中显示一个箭头或其他符号)，也可以是外围提示(在一个外围框中短暂变亮)。有效的线索正确地预测了目标将出现在哪个盒子里，而无效的线索则指出了错误的盒子。正常受试者通常表现出线索效度效应，包括有效线索目标试验比无效试验更快的RTs和更高的准确性(但见下文描述的返回抑制现象)。这表明，线索促使注意力转向提示位置，这加快了对出现在该区域的目标的处理，并减缓了对出现在其他位置的目标的反应

在这种情况下，大多数(例如80%)的线索都是有效的;在这种情况下，线索被认为是关于目标未来位置的信息。或者，线索可能是非信息性的，当目标可能以相同的概率出现在线索或未提示的位置时。外围非信息性线索自动或外源性地吸引注意力。这种外源性注意力转移(由提示效度效应揭示)通常只在提示和目标之间的短刺激启动异步(soa)中观察到。对于超过300毫秒的soa，未提示的

目标比提示目标唤起更快的反应[20-22]。这种现象被称为返回抑制(IOR)[23,24]，通常被解释为反映了一种机制，通过抑制对相同位置的重复定向来促进对视觉场景的探索(参见[21,25,26])。因此，外源性(刺激依赖)和内源性(策略驱动)的注意导向机制在质量上是不同的，尽管它们是高度互动的过程[11]。外源性注意力定向的一个有趣特性是，它不会一直聚焦于受刺激的空间位置，而是倾向于扩散到该区域呈现的整个感知对象[27,28]‘

4.2 Networks of Human Attention

4.2.1 Sustaining Attention in Time

注意的一个重要组成部分，不一定涉及选择，是对外部刺激快速反应的能力，无论是否伴有干扰。这方面通常被称为警觉性、警惕性或持续注意力，其典型的时间跨度以秒为单位[29]。

警报系统被认为产生一种一般的警报状态，负责将注意力分散到广阔的空间区域，并被认为是由蓝斑核调节的(图4.1a)[30]，蓝斑核是脑桥(脑干的一部分)中的一组神经元，分泌神经递质去甲肾上腺素，其轴突分布在几乎整个中枢神经系统。去甲肾上腺素的释放会提高警觉性。更高的警戒状态允许更快地处理信息，而不受其空间位置的影响[31]。随着时间的推移，我们可以自愿地保持我们的警觉性水平，这种功能被称为持续注意力，它涉及到右侧前额叶皮层(PFC，图4.1b);[32]、下顶叶(IPL)和皮层下结构[33]。右侧额顶叶系统(图4.1b)对于调节警觉性很重要，特别是在没有适当外部刺激的情况下产生警觉性[29]。因此，对持续注意力至关重要的大脑网络包括主要位于右半球的PFC和PPC(后顶叶皮层)[34]，丘脑和脑干核也有额外的贡献[35]。

“突出网络”包括背前扣带皮层(dACC;图4.1a)额叶内侧壁、岛叶前部、丘脑和前PFC可能对维持强直性(持续)警觉性和促进刺激检测很重要[36]。ACC可能是连接右侧额顶叶皮层系统和皮层下唤醒机制的重要接口[29]。

特别是，ACC可能在根据任务需求调节警觉性方面发挥关键作用[35,37 - 39]。神经影像学研究(回顾文献[40])表明，任务难度与激活峰密切相关，特别是在ACC的胼胝体上部分。

更困难的任务可能需要一个警觉性提高，脑干儿茶酚胺能(即去甲肾上腺素和多巴胺)系统的激活程度更高。与这些观点一致的是，ACC与参与警觉性调节的去甲肾上腺素能[41]和胆碱能[42]皮质下系统紧密相连(参见[43])。

警觉性水平也可以通过实验来调节，方法是发出警告信号，告知目标将在何时出现，而不是在何处出现。这就是所谓的阶段性警觉性。除了参与持续注意的(主要是右侧的)神经结构外，相性警觉性还与左侧PFC和丘脑的活动有关[33]。

虽然有时与警觉性交替使用，但觉醒应该指的是一般的清醒和反应，与缓慢的昼夜节律有关。对觉醒特别重要的是从脑干[44]、胆碱能基底前脑、去甲肾上腺素能蓝斑(也与警觉性有关[45])、多巴胺能内侧前脑束和血清素能中缝背核投射到皮层的系统[29]。

4.2.2 Orienting and Reorienting to Objects in Space

今天，我们对大脑网络的解剖学、功能、动力学和病理功能障碍有了相当详细的了解，这些网络在人脑中为凝视和注意力的定向服务。在这里，我们描述了一些在猴子身上使用神经生理学技术或在人类身上使用功能性磁共振成像(fMRI)的观察结果，以确定在注意力相关功能的表现过程中激活的解剖结构和网络。

这些网络的重要组成部分包括背外侧前额叶皮层(PFC)和后顶叶皮层(PPC)(图4.3)。

生理学研究表明，这两种结构表现出神经活动的相互依赖性，因此组成了一个功能性的额顶叶网络。在猴子中，当动物选择视觉刺激作为扫视目标时，类似的PPC和PFC区域表现出协调的活动[46]。

对健康人类参与者的功能性MRI研究(文献回顾[5])表明存在多个用于空间注意力的额顶叶网络(图4.3，右图)。

由顶叶内沟(IPS)/顶叶上小叶和额叶视野(FEF)/背外侧PFC组成的背侧注意网络(DAN)在定向期间表现出血氧水平依赖性(BOLD)反应的增加。功能性MRI还显示了腹侧注意网络(VAN)，其中包括颞顶连接(TPJ)和腹侧PFC(额下回和额中回)，并且当参与者必须对意想不到的位置出现的目标做出反应时，BOLD反应增加。

因此，VAN被认为对于检测意外但与行为相关的事件很重要。重要的是，DAN被认为是双侧对称的，而VAN则强烈偏向右半球。

根据

Singh-Curry和Husain[9]认为，van不仅以刺激驱动的方式致力于显著性检测，而且还负责保持对目标或任务需求的注意力，这是一个自上而下的过程。为了支持这一观点，功能性MRI显示额下交界处(部分Brodmann区9,44,6)在调节自下而上和自上而下注意力之间的相互作用中发挥了作用[47]。

此外，颞侧脑室尾侧结TPJ对行为相关的干扰物表现出增强的BOLD反应，但对不相关但高度显著的干扰物则没有增强的BOLD反应[48]。

重要的是，尽管有一些相似之处，人类和猴子在这两个网络的结构和功能上有根本的不同。一项研究直接比较了人类和猴子在执行相同的注意力要求任务时的大脑活动，发现人类独有的van，因此可能是在人类与猴子进化分化之后发展起来的[49]。此外，存在于猴子体内的DAN在结构和组织上表现出两种物种之间的根本差异。在人类中，它包含更多的大脑区域，其潜在的同源区域在其基本组织中表现出重大差异，例如它们的感受野分布。

这些结果表明，人类和猕猴的注意力系统分别进化，以应对每个物种面临的独特挑战[49]。

经颅磁刺激(TMS)的无创脑刺激研究进一步明确了注意网络的半球功能和不对称性。在线索和目标之间传递时，右TPJ的双脉冲经颅磁刺激干扰了IOR[50]，这表明在定向期间，除了DAN，还有van也起作用[6]。重复经颅磁刺激在右半球IPS或TPJ上持续干扰对同侧右侧目标的手动IOR[51]，从而模拟脑病变的影响[52]。

与此形成鲜明对比的是，重复经颅磁刺激对左半球同源区域的IOR没有可测量的影响[53]。因此，在IOR的皮质控制中，存在明显的半球不对称，这不仅涉及到van，还涉及到DAN。

重要的是，鉴于额顶叶注意网络的功能神经影像学证据，PFC和PPC通过解剖白质束直接和广泛地相互连接，这并不奇怪。特别是，在猴子大脑的研究中，根据皮层的终止和路线，已经确定了上纵束(SLF)的三个不同的额顶叶远端分支[54,55](如fig . 1)。4.3，左面板)。最近来自先进的体内神经束造影技术和尸体解剖的证据表明，人类大脑中也存在类似的结构[56]。4.3，中间面板)。在人类中，最背侧分支(SLF I)起源于Brodmann区(BA) 5和7，并延伸到BA 8、9和32。中间通路(SLF II)起源于下顶叶(IPL)内的ba39和ba40，到达前额叶ba8和ba9。最腹侧通路(SLF III)起源于ba40，终止于ba44、45和47。

这些结果与上述注意网络的功能性MRI证据一致。特别是，SLF III连接的是大脑皮层的节点，而DAN是通过SLF i的人类同源物连接的。SLF II连接的是大脑皮层的顶叶部分和DAN的前额叶部分，从而允许腹侧和背侧注意网络之间的直接交流。解剖学证据与功能性MRI中BOLD反应的不对称性很好地吻合，因为右半球的SLF III(连接V - AN)在解剖学上比左半球大，而SLF I(连接DAN)的组织更对称[56]。SLF II也倾向于右偏化，但存在显著的个体间差异。SLF II的偏侧化与右半球专化视觉空间注意的行为迹象密切相关，如对线平分的伪忽视，即正常人主观中线的轻微左偏[57-59]，以及右半球或左半球对事件的检测速度的不对称[56]。

4.2.2.1 Attention and Visual Perception

Cortical Streams of Visual Processing

根据一个有影响力的模型[60]，在猕猴大脑中，初级视觉皮层(或纹状皮层，见下文图4.4)处理的视觉信息遵循两条主要途径。一种背侧皮质视觉流，与视觉引导的空间运动有关[62]，但也与背侧注意部分重叠系统，背侧流通常被称为“在哪里”或“如何”通路，因为它与物体的位置和运动方向有关。腹侧皮质视觉流对感知识别很重要，从枕状皮层投射到下颞皮质，再从下颞皮质投射到腹侧前额皮质(图4.4)。腹侧脑流通常被称为“什么”通路，因为它与识别物体有关。

最近，背侧视觉流的概念得到了完善，通过识别出来自背侧视觉流的几种通路，这些通路包括投射到前额叶和运动前皮层[63]，以及进一步投射到内侧颞叶[64]。此外，腹侧视觉流最近被细分为几个组成部分，从V1到下颞叶皮层的一系列加工模式的原始假设现在已经被修正为包括更复杂的相互作用，包括前馈和反馈[61]。

事实上，对这些区域长程白质束的解剖确实表明，背侧和腹侧脑流都可以进一步划分为不同的组成部分。如前所述，额顶叶上纵束(SLF)至少有三个主要分支，包括猴子[55]和人脑[56]。关于枕颞通路，几个功能系统开始在猴子中出现[61]。解剖学上有两个主要系统已经在人类大脑中被发现。它们沿下纵束(ILF)和额枕下束(IFOF) [65] (F i g)运行。4.5)。

Attentional Modulations of Visual Perception

注意不仅在重要方面影响对近阈值视觉目标的感知[66]，而且还影响对超阈值视觉刺激的主观感知，例如，通过提高空间分辨率，即区分空间中两个相邻点的能力[67]。

因此，腹侧视觉通路的神经活动是由注意过程调节的[68,69]。特别是，注意力增加了神经元的反应，并改变了腹侧流神经元在被注意位置附近的感受野的轮廓和位置[70]。虽然注意效应几乎都是通过视觉皮层看到的，但注意调节能力遵循一个明显的梯度。当视觉加工层次向上移动时，注意效应的强度急剧增加[71]。人类的注意调制可以在视觉处理层次的早期被视为LGN[72]。此外，最近使用功能磁共振成像时间过程的单体素模型研究了群体接受野(即“注意力场”)的注意调节[73]。注意领域被发现与偏心率和不同的视觉区域。此外，多个视觉区域的体素表现出抑制性注意效应，因此它们具有一个增强的高斯中心和一个抑制性环绕。这项研究表明，大规模的大脑网络，包括额顶叶注意网络和更多的腹侧枕颞处理流，参与了有意识的视觉感知。

4.2.3 Target Salience

从周围环境中脱颖而出的刺激更有可能引起选择性的注意。这种基于特征的注意力受到自下而上过程的影响。通过对比，颜色等不同的视觉特征来比较刺激物和周围环境的差异，以及自上而下的过程，评估刺激物的行为相关性。一个解释如何计算显著性的有影响力的计算框架是基于显著性图的概念[74,75]。根据该框架，视觉信息首先由对刺激的基本视觉特征敏感的早期视觉神经元处理。

然后突出显示与相邻位置明显不同的位置。所有特征图中所有突出显示的位置被合并成一个单一的显著性图，该显著性图代表一个独立于视觉特征的纯显著性信号[74]。由此产生的视觉环境的稀疏表示反映了系统对最相关信息的最佳猜测[71]。

基于灵长类动物的神经生理学研究，确定了两个主要的显著性相关皮层区域。灵长类动物FEF的神经元反应(人脑DAN的一部分)被发现与自下而上的刺激显著性和自上而下的环境因素有关，这表明它可能参与显著性图的生成[5,71]。此外，Bisley和Goldberg[76]提出，LIP区域作为一个优先级图，其中对象由与其行为优先级成比例的活动来表示，将自下而上的输入与一系列自上而下的信号相结合。这些区域似乎与负责眼球运动的规划和执行的区域紧密相连，这与经常需要对视觉环境的突出区域进行更详细的分析是一致的[71]。

在人类中，目标显著性通常使用简单的行为任务来评估，如odd范式，其中不经常出现的目标刺激(受试者必须对其做出反应)被呈现在一系列频繁出现的非目标刺激中，而这些非目标刺激的反应必须被保留[9]。在这种范式中，显著事件检测的神经生理学特征是一个以顶叶为中心的积极事件相关反应(ERP)，发生在目标呈现后约300-500毫秒，而不是在熟悉的非目标后，被称为P3或P300[9]。在TPJ[77]和前额叶皮层[78]以及视觉忽视患者中发现P3的病理改变[79]。在功能成像研究中，在目标检测过程中，最一致激活的皮质区域是右侧IPL、IPS、TPJ和额叶区域，与前脑区有大量重叠[9]。

4.3 Visual Neglect

从视觉忽视的案例中，我们可以学到很多关于人类注意力的认知和神经解剖学方面的知识。

这种常见且严重致残的神经系统疾病通常影响患者的左侧空间，由右半球损伤引起，通常以顶叶下小叶为中心[80]或颞叶上[81]。

忽视病人忽视发生在他们左边的事情，有时会达到戏剧性的程度——“忘记”从盘子的左边吃东西，或者撞到位于他们左边的障碍物。左侧忽视的患者也表现出一看到视觉场景就关注右侧细节的倾向，就好像他们的注意力被这些细节“磁力”吸引了一样[82]。他们通常不知道自己的缺陷(病感失认症)，并且经常顽固地否认自己是偏瘫。忽视是残疾和残疾患者的一个重要来源，并导致不良的功能结果。单侧忽视对患者的运动恢复[83]和社会康复产生负面影响。不同程度损伤的缺陷可能在不同的患者中起作用;然而，忽视患者的注意力问题的频率和严重程度已被反复强调[84]。

左脑损伤的患者也可能表现出右脑被忽视的迹象，尽管这种情况更罕见，而且通常不那么严重[85,86]。例如，Bartolomeo等人[87]使用忽视电池发现30例右脑损伤患者中有17例(57%)存在对侧忽视的迹象，而30例左脑损伤患者中只有2例(7%)存在对侧忽视的迹象。右侧视觉忽视似乎是由于广泛的左半球病变同时伴有(部分)右半球损伤[88]。因此，右侧视觉忽视可能在神经退行性疾病中比局灶性脑病变中更常见([89,90];但参见[91])。

忽视患者表现出异常的行为模式，可以很容易地看到使用波斯纳位置线索范式。一般来说，在视觉忽视中，内源性定向相对较少，如果速度减慢，而外源性定向则严重偏向右侧[84]。具体而言，在外源性注意定向中，患者的RTs在受损侧和完好侧都要慢得多[84]。此外，在无效试验中，当目标出现在左侧时，患者通常会表现出较长时间的RTs，这表明他们难以脱离之前的右侧线索并转移注意力[84,92,93]。此外，即使目标在右侧完整侧呈现，外源性定向的RT模式也是异常的:左侧忽视患者似乎对发生在右侧(所谓的“正常”侧)的重复事件表现出促进作用，而不是正常的IOR[94]。一项基于波斯纳范式的脑损伤患者的荟萃分析结果显示:(1)外周提示下的脱离缺陷较强，而中枢提示下的脱离缺陷较弱;(2)较短的SOA时，脱离缺陷较大，随着SOA的增加而减小;(3)有单侧忽视迹象的患者的脱离缺陷较大。前两个特征是外生定向操作的典型特征;第三种观点明确地将脱离赤字与单边忽视联系起来[92]。因此，本荟萃分析的结果有力地支持了左侧忽视存在外生定向偏差的假设。

忽视的其他成分缺陷可能不一定是横向或方向性问题。例如，有人认为，忽视不仅源于选择性空间注意的不对称，还源于其他非侧化注意成分的损伤，如唤醒或警觉性[95]。这种非侧化缺陷可以用来解释忽视患者对视觉目标的反应比正常人慢的事实，即使在同侧病变中也是如此。非被忽视的空间。在忽视集中呈现的视觉刺激时，注意力事件的正常时间似乎也被打乱了。当正常人必须识别在同一空间位置一个接一个地出现的两个视觉事件时，如果在第一个事件之后100-450毫秒的时间窗口中出现第二个事件，则不会被发现(“注意眨眼”[96])。非侧化的注意力损伤可以解释单侧忽视的半球不对称。右脑损伤比左脑损伤更能减缓RTs[97]，这可以解释为唤醒缺陷[98]。右脑损伤而非左脑损伤后更容易出现觉醒缺陷，这可能是右脑损伤而非左脑损伤后对侧忽视发生频率和严重程度高于左脑损伤的基础之一[99,100]。人们可以推测，单侧脑损伤通常会延迟处理来自对侧脑区的信息。另外，右脑损伤导致的注意力操作的非侧化减慢可能会进一步阻碍左脑刺激的处理，直到超过最后期限后，该信息不再影响行为[84]。

因此，外源性定向的不对称性，即向右转移注意力比向左转移更容易，再加上非侧化缺陷(如唤醒问题)，似乎与来自大多数左侧视觉忽视病例的实验证据相适应[84]。

重要的是，在忽视中受损的主要区域包括右侧腹侧注意网络[101]。此外，右半球内连接顶叶和额叶区域的长程白质通路的损伤可能是忽视的重要先决条件[19,102,103]。因此，忽视不是由单个皮质区域的功能障碍造成的，而是由大网络的破坏造成的[19,101]。只有少数研究利用脑电图和视觉诱发电位测量来研究忽视的神经基础，发现激活减慢[104]和后期视觉加工中的异常成分[105]反映了自下而上加工和来自更高视觉区域的反馈连接的扰动[106]。一些fMRI研究也表明，在这些患者中，受损的van可诱导DAN失衡，左半球网络相对亢进[101]。然而，关于忽视机制的许多重要问题仍然悬而未决。例如，右半球主导空间忽视是该综合征最令人困惑的方面之一[19,101]。另一个尚未解决的问题是，许多以忽视为特征的行为缺陷传统上与背侧注意网络的功能有关，但从解剖学上讲，这些缺陷可能在导致忽视的中风中得以保留[101]。

因此，忽视的病理神经机制是非常复杂的，这是由于两个注意网络之间的相互作用被破坏，从而导致它们的激活不平衡。

事实上，有证据表明，两个注意力网络的脱节是导致忽视的主要原因。如前所述，SLF II与IPL中的SLF III的尾侧皮质起源部分相同，它将van的顶叶部分与DAN的前额叶部分连接起来[56]。因此，IPL损伤[107]，当伴有潜在白质损伤[108,109]时，可能会产生严重且持续的忽视迹象，因为它可以共同破坏van(通过SLF III断开)和DAN(通过SLF II损伤)的功能。另一方面，较小范围的病变，可能保留很大一部分SLF II，可能允许半球内补偿机制依赖于SLF II提供的VAN和DAN之间通信的可能性。

在这种情况下，由于左半球DAN相对比右半球更活跃，背侧额顶叶网络之间最初的不平衡可能在急性期后消退，随后从忽视迹象中恢复过来[110]。为了支持这些观点，人类右半球连接DAN和VAN的SLF II纤维暂时失活会损害视觉注意的对称分布[103]。

最近，一项利用MRI神经束成像技术进行的纵向研究发现，亚急性患者的上纵束II/III和慢性患者的尾侧部分中，忽视的严重程度与分数各向异性值(水分子扩散的方向性，推断白质纤维结构的一种度量，因此纤维越大，扩散的方向性越强)相关[111]。研究结果证实了额顶叶断连在忽视的出现和慢性持续性中起关键作用，并证明了慢性忽视中尾侧半球间断连的含义。这种分离可能会阻止左半球的额顶叶网络解决与右半球对应的活动不平衡，从而导致持续的忽视。

这些概念是如何映射到关于大脑中注意网络组织的假设上的?忽视中半球内和半球间相互作用的一个合理模型[112]规定，右半球van的损伤导致左右dan之间的功能失衡，并伴有左背额顶叶网络的过度活跃，这将引起对右侧物体的注意偏向和对左侧物体的忽视。与这一假设一致，左侧额顶叶网络的抑制性经颅磁刺激与患者在取消测试中的表现改善相关[113]。

然而，也有证据表明，未受损的左半球可能对忽视的长期恢复至关重要[11,114]。因此，经典的忽视半球竞争假说，即忽视症状是由左半球过度活跃引起的[115]，似乎过于简单，无法解释所有可用的数据。此外，Singh-Curry和Husain[9]认为，van不仅以刺激驱动的方式致力于显著性检测[5]，而且还负责保持对目标或任务需求的注意力，这是一个自上而下的过程。为了支持这一观点，功能性MRI表明，额下交界处(BA 9,44,6的部分)在调节自下而上和自上而下的注意之间的相互作用中发挥了作用[47]。

此外，颞下颌神经的尾侧结TPJ对行为相关的干扰物表现出增强的BOLD反应，而对不相关但高度显著的干扰物则没有(参见[48,116])。因此，这些非空间方面的注意力缺陷可能会导致被忽视患者的空间偏倚加剧[117]。