Trends in Cognitive Sciences综述:学习和记忆中的背景推理

1. 摘要

背景被广泛认为是学习和记忆的主要决定因素,包括经典和工具条件反射、情景记忆、经济决策和运动学习。然而,由于缺乏一个统一的框架来形式化背景的概念及其在学习中的作用,这些跨领域的研究仍然是不相连的。在这里,我们开发了一个统一的术语允许直接比较不同领域的背景学习。这产生了一个贝叶斯模型假设上下文是未观察到的,需要推断。情境推理然后控制着记忆的创造、表达和更新。这一理论方法揭示了适应背后的两个不同组成部分,适当的学习和外显的学习,分别指的是记忆的创造和更新与记忆表达的时变调整。我们回顾了基础贝叶斯模型的一些扩展,使它能够解释日益复杂的背景学习形式。

2. 在背景中放置背景

大脑运作的核心是存储和维持对环境的多种记忆,并在需要时检索它们。背景的概念已经成为一个关键的组成部分,大脑如何管理这个复杂的任务:它是否以及多大程度上控制条件恐惧记忆表达,情景记忆回忆,空间位置记忆,和运动技能激活。因此,关于背景记忆的经典研究表明,通过了解当前的背景,管理多个记忆的具有挑战性问题可以简化为一次处理一个记忆的更简单的问题。

但是什么是背景,大脑是如何决定当前的背景的呢?借用James的话说,“每个人都知道背景是什么”。事实上,从实验者的角度来看,背景通常是明确定义的,例如,由实验发生的房间,或一个环境特有的显著地标。然而,在现实世界中,背景既没有明确的定义,也没有标记,一般来说,它们不能被环境的特征明确地定义。例如,实验室实验中的恐惧条件反射的背景通常通过特定的感觉线索或实验室的身份来操作。但是情境性的恐惧条件反射是如何在野外发生的呢?当一只老鼠从森林的空地上逃离雪貂时,什么构成了这种可怕记忆的“背景”?是特定的森林,任何一般的森林,空地,一天中的时间,背景中鸟儿的鸣叫,还是导致这种遭遇的行动序列?同样地,当厨师学会了在一系列情况下产生不同的用刀动作,比如在处理橘子或西红柿时,她第一次切柿子时应该使用什么动作,以及任何运动错误应该如何更新现有背景下的记忆?

在这里,我们回顾了大脑如何分解我们连续的感觉运动经验到不同的背景,从而产生记忆的创造、表达和更新支持灵活和适应性行为的经验证据和计算模型。我们强调存在于感觉、运动和认知领域的共性。一个出现的共同主题是,推断当前背景的计算任务并不是微不足道的,而大脑解决这一任务的方式对记忆的处理有着深远的影响。

3. 背景依赖效应对长时记忆的影响

背景在学习和记忆中的作用是普遍存在的。所有形式的长时记忆,从陈述性(语义和情景)到非陈述性(联想、非联想、程序、启动),都表现出背景依赖,即记忆信息或学习行为取决于背景因素,如环境、位置和时间的感官线索。在这里,我们提供了一些范式的例子,表明背景在经典条件反射、情景记忆、经济决策和运动学习这四个广泛领域中是重要的,并提出了一个统一的术语来描述这些结果(Box 1)。

Box 1. 背景学习:一个统一的观点

尽管研究背景学习的不同实验领域在历史上都发展了自己的特殊术语,但它们的范式可以用定义一组共同关键概念的统一术语来广泛描述(图1)。根据定义,在背景学习实验中,背景会随着时间的推移而变化(通常是在试验中取得进展)。每个情境都与一组特定的偶发事件(灰盒)相关联,它定义了情境中可能发生的感官刺激的类型,以及反馈如何依赖于这些感官刺激和被试的行为。一般来说,区分被试在一个情境中可以接收到的两种感官刺激是很有用的:感觉线索和反馈。可能有一些感官线索(粉红色;例如,环境的外观)可以提供关于环境的信息,但没有进一步的直接任务相关性。当被试也有机会在试验中选择一个动作(绿色;例如,按下按钮,或关节扭矩移动手臂),然后接收反馈(紫色;例如,奖励或运动运动学),这种反馈不仅可以直接依赖于他们的行动,还可以依赖于他们接收到的一些特定刺激,这些刺激定义(尽管通常,只是概率)当前状态(橙色)。因此,感官线索和状态之间的关键区别在于,一旦已知背景,只有状态才会影响反馈(即,它是与任务相关的)。

总的来说,在不同领域的发现揭示了背景学习的一些领域的一般特征。首先,背景的内部表征是由三个主要因素之间的复杂相互作用决定的:(i)与表现相关的反馈信号(如奖励、惩罚、动作准确性);(ii)具有中性效价且与表现无关的感官线索(如背景的外观);以及(iii)独立于实验控制刺激的自发因素(例如,时间的流逝,或不受控制的刺激)。其次,这些因素的影响都依赖于经验。这意味着,不仅奖励和感官线索与不同背景相关的方式受制于学习(前两个因素),而且还有不同背景出现的倾向和随着时间的推移而转变的倾向(第三个因素)。例如,对更不稳定的背景经验只会导致时间的流逝,从而调节更突然的背景变化(另见Box 5)。第三,一旦确定了背景的内部表征,它就会对记忆的创造、表达和更新产生广泛的影响。一般来说,与当前活跃的背景相关的记忆主要是表达和/或更新的,而新的记忆则是在被认为是新奇的背景中形成的。

3.1 经典条件反射

在经典条件反射中(图1A),一个非条件刺激(US,例如,大鼠的足电击;图1A,反馈,紫色)呈现一个条件刺激(CS,例如,音调;状态,橙色)在获取阶段。在无数的试验中,CS引起了一种条件反应(例如,冻结),并在强度和/或频率上增加。如果US在消退阶段被停止(偶发事件,灰色框中的变化),条件反应在试验中会变得逐渐变弱。如果获得和消退是在不同的背景中进行的(环境A和B;感觉线索,粉红色),将动物返回到获得背景(A)会导致条件反应(ABA更新)的重新表达。因此,在实验的获取和消退阶段学习到的信息(CS分别预测和不预测US)与由不同的感官线索(背景A和B)和偶发事件定义的特定背景有关。

图1. 用于区分不同领域的背景学习的统一术语。最上面一行显示了背景学习的关键元素(用颜色编码;请参见Box 1);面板显示了它们如何应用于特定的领域。在典型的经典条件反射(A)、情景记忆(B)、工具学习(C)和运动适应(D)任务中进行三次连续试验。对于每个任务,前两个试验(试验n-1和n)在背景1中(蓝色),而最后一次试验(试验n+1)在背景2中(红色)。每个背景都可以与观察到的感觉线索相关联[粉红色,(A)中的条件反射室,(B)和(C)中的背景图像,以及(D)中的虚拟工具的方向]。感官线索是背景的信息,但与任务表现没有直接关系。在每次试验中,参与者观察到一种状态[橙色,(A)中是否存在听觉音调,(B)和(C)中的前景图像,以及(D)中的目标位置]。参与者选择一个动作[绿色,(A)和(B)中不采取任何动作,(C)中按离散按钮,(D)中连续的肘关节和肩关节(未显示)关节扭矩]。给定状态和行动(如果适用),参与者收到反馈[紫色,(A)中是否存在足电击,(B)中没有反馈,(C)中没有金钱奖励,(D)中观察到的手部轨迹]。状态、动作和反馈之间的关系是由上下文特定的偶发事件(相应的灰框)决定的。(D)中的直箭头显示了由参与者抓住的机器人手柄(未显示)产生的速度依赖力。请注意,一些特定的实验范式只使用了这些成分中的一个子集。例如,在经典条件反射(A)或(情景记忆实验的研究阶段)中,动作通常不被考虑[(B);在这种情况下,通常甚至没有反馈],运动学习实验(D)通常对每个背景只有一种状态(即所有试验中的相同的目标),许多范式不使用任何特定背景的感官线索。此外,在历史上,相同的术语来指不同的概念在不同的领域:例如,“状态”一词用于状态空间模型运动学习指的概念,我们称之为“偶发”,而我们保留使用术语“状态”在某种意义上最接近于强化学习。最后,有时会使用“背景”以外的术语来表达相同的概念(例如,经济决策中的“任务集”或“抽象规则”)。

在上述实验中,背景可以明确识别的物理位置或环境(事实上,感官线索,如实验室,通常被称为“背景”在这些实验),还有其他现象被其他解释,更微妙的概念。例如,在熄灭条件反应一次之后,第二次获取条件反应,比初始获取(快速获取,也称为储蓄)要快。事实上,即使是(重复)呈现US也会导致第一次出现CS(恢复)时条件反应的重新表达。在这两种情况下,有人认为不同的(和相反的)记忆在最初的获得和消退阶段被放下,这与不同的背景有关(而不是像术语“消退”所暗示的那样简单地抹去最初获得的记忆)。根据这些理论,在实验的第二阶段,US(恢复)或CS和US(保留)的存在作为背景线索,回忆习得背景,从而产生条件反应。

自发恢复的现象代表了一个更有趣的例子,即背景被隐式定义。在这里,在消退后,时间的流逝就会导致条件反应的再次出现。这被认为是由一个时间进化的环境内部表征引起的,在没有显著刺激的情况下,随着时间的变化从本质上由其内在动态决定,并最终可以返回到原始的获取环境。此外,部分强化消退效应表明,即使是背景表征的时间动态也是经验依赖的。在这个范式,条件反应的消退速度(假设是由于记忆的出现“消退”背景)是更慢的,如果CS和US配对不一致在获得阶段(所以在一个试验中US的不出现并不一定意味着“消亡”将持续在下一个试验)。

3.2 情景记忆

背景的概念一直是情景记忆理论的核心。在一个典型的情景记忆实验中(图1B),参与者观察到一种不同的状态(例如,前景中的视觉形状)。可能的状态集取决于当前的背景(由一个感官线索,背景图像索引),它在比状态更慢的时间尺度上发生变化。通过恢复该内存最初被编码为的条件(即背景),可以方便地召回一个状态的内存。例如,随着时间的推移,背景中的自发变化(类似于那些被认为可以解释经典条件反射或运动学习的自发恢复的变化)被认为是情景记忆回忆中一些最常见的影响基础。这些包括近因效应,即回忆一个项目的能力(状态)下降随着时间的流逝编码或干预项目的存在,和连续性效应,回忆的一个项目促进的表示或回忆一个项目提出附近的目标项目。这两种影响都可以通过假设背景的概念来解释,这个概念随着时间逐渐变化,反过来被用来索引回忆时对过去项目的记忆。这导致了最近的项目共享与当前背景相似的背景,更普遍的是,时间连续的项目共享相似的背景。

与情景记忆相关的情境似乎并不是简单地随机漂移。它们也被证明是由特定的、强有力的感官线索所控制的。例如,在一些研究中,参与者阅读、观看或听由一系列项目组成的叙述,这些项目被跨事件打断(也称为背景转移),这些事件反过来又以感知、时间或语义信息的快速变化为标志。在文本叙述中,时间转移的一个句子,如“一段后……”可以作为感官线索,指示一个新的事件。一个常见的发现是,事件内项目比跨事件项目更容易被回忆和识别。例如,与在同一事件内相比,在跨事件上的序列回忆(回忆事件经历的顺序)更差。与跨事件的项目时间顺序的记忆减少相一致,当项目被事件分隔时,近因辨别(两个项目中最近出现的记忆)不那么准确。类似地,与同一事件中呈现的项目相比,被事件分隔的项目被认为在时间上更远。当事件将项目的编码和随后的识别测试分开时,对前一个项目的识别的准确性也较差。事件的影响也可以在更自然的背景中观察到。例如,穿过门口会导致对之前房间中遇到的物品的识别能力受损。此外,当一个人回到同一个房间(ABA结构)时,他们对该房间(A房间)项目的记忆比他们去另一个房间(C房间,ABC结构)时更好,呼应了经典条件反射中ABA的更新。

虽然背景的身份通常被认为是由经典条件反射范式中的实验者客观地定义的,但前面描述的情景记忆实验强调了背景是一个在个体眼中的主观构建的概念。特别是对于高维、多感官自然刺激,如电影,没有明确和明确的真实分割刺激流到离散事件,因此,事件边界只能确定首先要求参与者明确报告感知事件边界,或通过观察大脑活动突变或爆发自主觉醒指示感知事件边界。尽管如此,参与者经常同意事件边界的位置和个人有更高的分割协议得分(衡量事件边界的程度由一个人同意那些确定的组)表现出更好的回忆,识别,和顺序记忆性能,表明标准事件边界的存在。

3.3 经济决策和工具性学习

在一个典型的经济决策或工具学习实验中(图1C),参与者观察不同的状态(例如,形状),从一组行动中选择,并获得奖励(反馈),这取决于状态和选择的行动(通过一系列偶发事件)。这个任务可以推广到情境变体,在参与者不知道的情况下,偶发事件会根据情境而变化,在多次试验中保持不变(而不是刺激在每次试验中都会变化)。在实验开始时,参与者并不知道偶发事件,因此,他们获得的奖励相对较少。然后,通过试错学习,他们会选择更好的行动,即表现的提高,从而获得更多的奖励。在背景切换之后,性能突然下降,然后稳步上升到一个平台。如果当前背景在之前经历过(类似于经典条件反射中的快速重新获取),这种性能的增长会更快,这表明参与者使用反馈来检索之前学习的背景特定策略(从状态映射到动作),而不是从头学习新的策略。重要的是,即使对于那些自背景恢复以来尚未遇到的背景状态,性能也会提高,这表明参与者检索整个特定于背景相关的策略,而不仅仅是特定于单个状态的操作。

通过呈现特定背景的感官线索(例如,一种颜色),除了反馈外,还提供了关于背景的第二个信息来源,随后表现的增加背景转换可以进一步加速,这表明参与者可以使用感官线索来帮助检索适当的策略。此外,在实验中,一个背景可以与多个感官线索被推断为更有可能当一个新的感官线索,揭示了优先检索政策的上下文与大多数感官线索。这表明,与背景相关的感官线索的信息包括更高层次的抽象信息(例如,线索的多样性),而不仅仅是在该背景中已经遇到的特定线索的身份。类似地,关于状态-动作-反馈偶发事件的信息也可以在更高的抽象级别上学习,而不仅仅是一个简单的查找表。例如,在一个实验中,背景与抽象动作之间的关系和反馈(定义的参数形式反馈的依赖行动,例如,线性增加或减少键盘关键位置,但线性关系的确切参数变化块试验相同的上下文)。参与者能够利用这些关于偶发事件(线性)的抽象知识来有效地指导他们在新的方块中的探索。最后,在一个两步顺序决策范式中,在四种不同的背景中,参与者表现出了学习和转移效应,表明他们也学习了这种背景转换结构,而不仅仅是与个体背景及其整体频率相对应的偶发事件。

3.4 运动适应

在运动适应中(图1D)中,参与者在存在扰动的情况下进行运动(动作),如粘性力场或视觉运动旋转。每个扰动都代表了动作和反馈之间的一组偶发事件(运动学误差)。这些扰动意味着类似于与现实世界中具有不同物理性质的物体相互作用的体验。扰动的突然引入导致了较大的运动学误差,随着参与者调整他们的运动输出来补偿扰动,这些运动学误差逐渐减少。当两个相反的扰动(例如,与方向相反的力场)在试验中随机交错时,两组偶发事件的记忆会发生干扰,从而发生最小的适应。然而,如果每个扰动都与一个独特的感官线索配对,那么对这两种扰动。然而,有趣的是,并不是所有的感官线索都能有效地减少干扰,在那些有效的线索中,一些比其他更有效,不同的线索不同程度地参与内隐和外显学习过程。此外,感觉线索的有效性可能会随着经验的变化而改变,因为新的线索-背景关联被学习。

在单次试验的基础上,感官线索与扰动来确定多少适应发生:单次试验学习(适应的变化后一个试验扰动)更大的感官线索和扰动,试验被执行在相同的背景与不同的背景中。当一个扰动可能持续从一个试验到下一个试验时,与它可能恢复到相反的扰动时相比,单次试验学习也会更大。因此,适应的动态对背景的一致性是敏感的。重要的是,在经典条件反射中观察到的许多现象在运动领域都有直接的类似物,包括自发恢复、诱发恢复和保留。此外,这些现象已被证明以一种微妙的方式依赖于各种实验操作。例如,如果采集阶段延长,自发恢复增加,如果采集阶段之前有一个呈现相反的扰动,自发恢复减少。此外,当扰动很大或突然引入时,节省更明显与体积较小或逐渐引入时相比。最近的一项研究表明,一个核心包括背景推理的运动学习模型可以为所有这些发现提供一个统一的解释。

4. 背景依赖学习的贝叶斯理论

在Box 1中,我们总结了背景学习的主要领域的一般特征,这些特征可以从上一节中提出的发现中归纳出来。这些一般的特征为背景学习提供了一个统一的理论框架。同时,它们也代表了这种理论的需求,指定了需要捕捉的经验现象的空间。我们现在转向发展这样一个理论框架。

鉴于此,正如我们之前所说的,背景并没有客观的基础真理,而是学习者对背景的主观信念控制着学习和记忆。贝叶斯认知模型提供了一种数学形式,可以严格定义这些信念,以及它们应该如何根据过去和现在的感官经验来更新。在这种观点下,背景是一个所谓的潜在变量的突出例子,不能直接观察,只能通过其对背景的可观察特征的潜在随机效应间接观察。特别是,正如我们之前看到的(Box 1),背景控制着背景的外观(例如,状态或感觉线索的分布)和其他与任务相关的关联,如状态-行动-反馈偶发事件。然后,对背景的信念被表示为一个后验概率分布,定义了学习者目前相信它是在任何特定背景中的概率。

为了定义一个潜在变量的后验分布,如当前背景,贝叶斯模型从一个生成过程,指定学习者对背景的假设,其潜在和观察变量,和他们的统计关系(即,每个变量的分布可能取决于其他一些变量)。这可以可视化为一个图形模型,由节点(表示随机变量)和节点之间的边(表示随机变量之间的概率关系)组成的图形模型。图2A显示了多背景环境的图形化模型(图2B中的单背景环境的模型)。这个模型捕捉到了前面描述的许多背景学习实验的本质(图1),并使用了在我们统一的术语(Box 1)中定义的变量。具体来说,存在一组背景(由c索引),每组背景都由它的一组(潜在的时间演变)偶发事件x t(c)来描述,它们定义了对感官线索(qt,粉色)、状态(st,橙色)和反馈(rt,紫色)进行不同观察的概率,后者也以被试的行为(at,绿色)为条件。重要的是,当前背景ct作为一个顶级的“门控”变量,决定哪一组突发事件,也就是说,它决定观察。此外,这个背景变量也会随着它自己的动态而演变,这由背景相关的转换概率决定(图2C,Box 6;转换概率包含在当前背景的突发事件中,但是为了避免混乱,从突发事件到下一个背景的相应箭头在图2A中没有显示。

图2. 背景的内部模型通常归因于学习者。多背景(A)和单背景模型(B)的图形模型变量的时间变化通过为它们引入多个节点来形式化,每个节点对应于变量的不同时间步长(下标),然后在它们之间引入有向边(水平箭头)来描述它们的未来的值如何取决于它们过去的值(即内部动态)。给定时间步长中的一个变量的值也可以依赖于同一时间步长中的其他变量(垂直箭头)。背景根据马尔可夫转移概率演化。每个背景都有自己的偶发事件集(为了简单起见,只显示了两个;一般来说,背景和偶发事件集的数量可以是无限的)。背景也可以与感官线索(粉色)联系在一起,其中的出现概率也由背景特定的偶发所决定。只有与主动背景相关的偶发事件会影响观察到的感觉线索、状态(橙色)和反馈(紫色)变量(通过情境进行门控。反馈可以同时依赖于一个观察到的状态和一个动作(绿色)。一般来说,主动的偶发事件集也会影响下一个背景转换(为了清晰起见,没有显示箭头)。此外,状态可能不能被直接观察到,并且可能有它们自己的(动作依赖的)动态。灰色框表示偶有事件xt决定了框内变量的联合分布。(B)单背景模型中只存在一组突发事件。(C)层次偶发事件:转移概率的一个分层的狄利克雷过程。“从”每个背景转换的概率集转换到每个“到”背景的概率是一个全局概率集的变化。通过这种方式,学习特定背景中的局部转换概率,可以推断全局转换概率,进而推断其他局部转换概率,即使是尚未观察到的背景转换。

例如,老鼠在森林里,相关的感官线索可能是树木的密度和照明条件,状态可能与雪貂的出现或缺席,行动可能包括寻找食物或试图逃跑,和反馈可能与消费食物和被消费。这种鼠标可以区分两种背景,与安全和不安全的环境取决于附近的捕食者在不同的背景下,观察不同的感觉线索和状态,接受不同行为反馈的概率可能是不同的。老鼠等待的时间越长,在不安全背景中的可能性就越高(背景转换)。

根据背景学习的生成过程(图2A),当前背景ct和每个可能的背景对应的偶发事件x t(c)都是潜在变量。因此,贝叶斯背景学习需要同时推断出这两个量。请注意,在贝叶斯模型中,推理在原则上是唯一确定的(在分析的计算级别上)作为生成模型的概率反演,没有任何自由参数或过程级的假设(尽管在实践中,算法级的选择可能仍然需要做出;Box 2)。具体来说,关于x t(c)的推论构成了对背景c的(长期)记忆。正如我们稍后将讨论的,这与经典的单背景学习理论如何形式化记忆的内容是一致的(图2B),并在简单(单背景)学习范式中解释了广泛的实证发现。然而,贝叶斯背景学习模型也需要执行推断,并不断更新关于ct。因此,学习者需要推断出每个背景当前都是活跃的概率。在某些情况下,比如当我们的老鼠在雪貂的下巴,感官证据可能压倒性地支持不安全的背景,这样背景的概率有效,而当我们的老鼠从灌木到空地,它可能只推断出一个中间概率不安全的背景。在下一节中,我们将描述这些推断的功能结果,以及它们最终应该如何反映在行为中。

注意,这里我们假设一个具有固定结构的图形模型是背景学习中的推理基础。然而,经典条件反射实验表明,背景可能在联想学习中发挥不同的作用,例如,动物可以将其视为对偶发事件具有纯粹的调节或附加效应,或认为它完全无关的。这种多样性已经被贝叶斯理论假设动物考虑生成模型的替代结构,每一个都执行层次推理这些结构把正确的模型结构“只是另一个”高级潜在变量推断。这种对多个更简单结构的层次学习是否比学习单一更复杂结构中的偶然性更好地解释这些现象还有待检验。

Box 2. 抑制了背景推理的复杂性

贝叶斯背景学习的任务是推断(通过应用贝叶斯规则)联合后验分布所有潜在变量Lt,给定所有的历史观察变量O0:t。这个推理过程对我们在文本中描述的生成过程进行了适当的概率反转(参见正文中的图2A)。一般来说,这种反演需要计算一个后验P(Lt|O0:t),在整个潜在变量的历史,t,作为整个观测历史的函数。然而,在现实中,下游计算通常只需要最后几个(或最近的几个)时间步长(s) , P(Lt|O0:t)的潜在变量的后验。此外,这个后验通常可以以递归的方式在线计算,这样在前一个时间步计算的后验可以与最后一个时间步的观测相结合,因此不需要对之前所有观测的记忆:

请注意,上式还揭示了推理是如何完全由生成过程决定的:右边的第一项和第二项分别对应于正文中图2A中的垂直和水平箭头。

然而,即使在最简单的情况下,计算后验值可能仍然是非常棘手的,因此只能计算一个近似的版本。大脑可能使用的近似值的确切性质是未知的(见悬而未决的问题)。在这里,我们简单地假设它们足够准确,可以产生我们后面描述的背景推理的基本影响,即(接近)精确的计算。事实上,有时甚至是外观简单的启发式方法也可以有效地近似这种外观复杂的计算。例如,有可能表明,情景记忆的成功的过程级模型对应于我们在这里提出的模型下的近似推理形式。

近似形式的推理甚至可能比精确推理提供更好的数据解释。例如,有人认为,经典和操作性条件反射中经典的平滑增加(最终渐近)学习曲线(如正文图4中模拟的学习曲线)是群体平均的人为因素。相反,个体在行为反应中表现出突然的双向波动的步骤,在最初上升到一个不稳定的渐近线后,表现下降和增加。像这样的行为不能很容易地用精确的背景推理来解释,其中估计的偶发事件和背景概率都会随着时间的推移而逐渐变化。然而,它们可能来自于一个特别强大的近似,该近似基于使用蒙特卡罗样本来表示复杂的后验分布。事实上,基于抽样的近似已经被认为是一些认知和神经现象的基础。具体来说,在学习的背景下,它们也被认为是背景推理的基础,并解释了经验所描述的表现的突然和双向波动。

5. 背景推理的结果

背景上的后验分布表示了每个已知背景或一个未知的新背景当前活跃的概率。反过来,这个后验分布又控制了记忆的表达、更新和创建。

5.1 记忆表达的背景混合

如果当前背景及其相应的突发事件的学习者,然后选择最好的行动在给定的时间会很简单(即使乏味):学习者需要选择的行动与最理想的(最高效用)反馈根据这组突发事件。因此,行为只会由一个单一的因素来驱动记忆:对应于当前背景的记忆。然而,考虑到一般来说,当前背景存在不确定性,原则上需要查阅所有背景的记忆。具体来说,根据贝叶斯决策理论的规则,每个动作的期望效用可以通过平均其跨背景的效用来计算,并通过后验背景概率进行加权,并可以选择具有最高期望效用的动作。当一个动作的效用被定义为平方误差从一些背景相关的目标行动,行动最高的预期效用的加权平均目标行动在每个背景。

在所有这些情况下,关键的见解是,一些记忆的内容(那些与具有非零概率的背景相关的内容)需要混合,以获得最佳行为。这与经典的记忆回忆账户明显不同,后者关注如何在一次中检索单个记忆。与这些经典理论类似,最近的几个背景依赖学习模型也在每次试验中表达单一的记忆(与单一最可能的背景相关的记忆),而不是混合记忆。在这样做的过程中,他们忽略了背景的不确定性,一般来说,会导致次优行动选择。有趣的是,在运动控制领域,不同模块的输出线性混合“需求”已经被广泛接受,但其关系背景推理和更普遍的因素控制混合比例直到最近。相比之下,在情景性、空间记忆和人类工具性学习等领域,只有零星的记忆混合的建议,这些还没有得到系统的行为分析的实验支持。

5.2 用于记忆更新和创建的背景分解

一旦收到反馈,在执行了一个动作后,背景学习将面临一个困难的信用分配问题。由于不确定目前哪个背景是“活跃的”,所以不清楚哪个背景负责反馈,因此,哪些记忆应该由它更新。再一次,背景上的后验分布保持了这个问题的规范解决方案。特别是,同样的反馈现在需要去混合,这样所有的记忆都会根据相应背景的后验概率按比例进行更新。换句话说,同样的记忆需要更新一个有效的学习速率,并进行动态调制,这取决于在任何给定时间分配给其相应背景的后验概率。

考虑到多背景模型中的精确推断通常是棘手的(Box 2),在人类学习模型中常用的一种计算成本便宜的替代方法是确定地将每个试验分配给具有最高概率的背景。然而,这种近似忽略了关于背景的不确定性,并导致在每次试验中只更新一个记忆。这种非贝叶斯启发式被证明是,与更恰当的贝叶斯方法相比,它不会定性地影响模型行为。然而,这可能只适用于那些不直接测试记忆如何更新的范式,我们将在接下来讨论。

正如记忆回忆不应该局限于检索单个记忆一样,一般来说,记忆更新也需要对多个背景并行发生。虽然这听起来可能有些不正统,但与传统的记忆处理概念(例如,通过巩固或再巩固更新情景记忆)相比,有实验证据表明这种去混合记忆更新。在运动学习中,最近的一项实验特别引入了一种线索-冲突情况,以增加记忆更新时的情境不确定性。这使得两种不同的运动记忆的分级(去混合)更新得以证明,正如背景去混合所预测的那样。虽然这种分级更新在个体水平上是明显的,但它是否也在个体试验的水平上分级,或者可能被概率全更新或全更新来近似,还没有得到解决。

有时,所有现有的记忆在一种情况下似乎都不合适,所以即使对它们进行适当的解混合,也是不合适的,而需要创建一个全新的记忆。事实上,关于记忆创造的经典描述经常强调新奇性或预测错误在调节这一过程中的重要性。与此相一致的是,如果背景推理是在一组开放式的背景上执行的,也允许看不见的新背景,当新背景的后验概率足够高时,背景去混合会自动产生记忆。

由背景推理驱动的记忆产生的一个基本预测是广泛观察到的滞后“沸腾青蛙效应”:背景中的一个突然变化通常会触发新记忆的产生,但许多小的变化加起来产生相同的总效果通常不会。这是因为在每一个小的变化之后,当前背景的记忆可能看起来仍然是合适的,尽管有点偏离,所以通过背景推理来更新它,即它在后验下的概率很高(图3A,顶部)。突然过渡到一个新的情况会导致所有已知的背景的概率都很低,因此(因为概率需要求和为1),一个新的背景的概率必然会很高(图3A,底部)。这种效应已经在许多不同的领域中得到了描述。在情景记忆中,感官刺激的微小变化被认为会导致其记忆的逐渐更新,而突然的变化则会导致新记忆的形成。这一原理也可以解释自然主义视频中的事件分割。类似的影响在细胞重新映射,一个假定的神经关联的推理新的环境,和伴随而来的创建新的空间记忆:重新映射取决于非线性的相似性环境和减少环境变化的逐渐引入。在电机控制中,储蓄更大突然(逐渐)引入扰动和去适应更快的删除后突然(逐渐)引入扰动,在这些情况下多个记忆被认为是创建(Box 3和图3),允许他们之间灵活切换。同样,在经典条件反射,逐渐消退的CS-US配对防止恐惧恢复(自发恢复和恢复)时的获得阶段的记忆学习未知,并与消退时形成一个新的记忆,从而保持原始记忆(见Box 3和图3)。

图3.用背景推理来解释的经典范式。每个范式都由三行表示[面板(A)中的两行,顶部]。最下面一行[面板(B)中的行]用黄色/棕色条显示了实验的状态反馈(正、+、负、-、空、0、缺失、空白)、感觉线索(黄色和棕色)和状态[条件刺激(CS)]。对于运动控制,+,0,和-反映了在到达过程中施加于手的扰动的强度和方向。对于条件反射,+和0反映了一个非条件反射刺激(US)的存在/不存在。上面的红色/蓝色条表示与实验相关的记忆(红色表示+,蓝色表示0或-);对于每个记忆,苍白背景的条从记忆创建一直延伸到实验结束(扇形边缘反映了预先存在的记忆)。每个条形图中的暗阴影显示了每个时间点对应记忆的表达式(暗阴影的高度表示表达式水平,在0到1之间,现有背景中的表达式总和为1)。有关范式和机制解释的详细信息,请参见正文和Box 3。(A) Top:对于一个逐渐引入的扰动(在第二行是黑色展开的三角形),现有的记忆会被更新(在第一行是蓝色变为红色)。底部:记忆的产生发生在一个突然引入的扰动中。(B)范式,即一个最初习得的记忆(红色)在另一个记忆被表达后被重新表达。重新表达可以依赖于状态反馈、感觉线索或自发因素。(C)新的记忆表达式。顺行干扰,学习第二组偶发(扰动)是慢如果另一组偶发(+扰动)最初学习,与干扰的长度增加的初始学习(长+和短+),也就是当环境不稳定。绿色和紫色的箭头分别指向快速变化和缓慢变化的记忆表达水平。

5.3 适当和表观的学习

背景混合和去混合也为实验心理学中最经典的现象之一:学习曲线提供了一个新的视角。学习曲线显示,随着训练或学习的推移,随着时间的推移(通常是连续的试验),任务的表现(或“适应”)逐渐改善。因此,对学习曲线的传统解释是,一个记忆(或一个记忆的集合)正在逐步更新,而行为上可观察到的表现的逐渐变化是由于这些记忆的更新。事实上,经典的和更现代的学习模型直接假设了这种机制。图4A显示了这种正确学习的一个简单的模拟示例。然而,记忆表达对背景概率的依赖意味着适应也可以来自于一个明显不同的机制:表观学习。表观学习指的是由于估计的背景概率的更新,记忆表达中的背景混合的变化(图4B)。事实上,表观的,而不是适当的,学习可能是许多现象的基础,传统上被归因于适当的学习(Box 3)。当然,适应也可以来自于适当的学习和表观的学习的混合物(图4C)。

Box 3. 表观学习现象

表观学习的基础是,存储的记忆可以处于休眠状态,而不被完全表达。这类似于检索失败的现象,即存储在记忆中的信息是暂时不可访问的,例如当一个单词在舌尖上时。有人认为,与表观的学习一样,当记忆被编码的背景(学习背景)不同于当前背景(测试背景)时,检索失败就发生了。与这一解释相一致的是,如果在测试时间[中出现与学习背景相关的感觉线索,恢复失败就可以被克服,这让人想起恢复和诱发恢复。然而,虽然术语检索失败具有负面含义,但表观学习是最优贝叶斯语境推理的结果,因此记忆抑制(检索失败)可以被视为一种规范现象。

表观学习最近也被认为是一些经典的学习现象的基础。根据这种说法,发生快速再获取(保存)是因为获取背景在第二次经历时更有可能,因此其相关记忆表达更多(见正文中的图3B)。自发恢复的发生是因为基于背景转换的动态变化,我们推断获取背景更有可能发生,因此其相关的记忆被重新表达(见正文中的图3B)。诱发恢复/恢复和ABA更新的发生是因为与获取阶段相关的感觉反馈(诱发恢复/恢复)或感觉线索(ABA更新)的重新呈现提供了强有力的证据,表明获取背景再次活跃,因此其相关记忆被重新表达(见正文中的图3B)。顺行干扰(或主动干扰)意味着适应一组给定的突发事件,或一些信息的研究(获得阶段),可以减缓后续适应一组新的突发事件,或损害最近研究的记忆信息,这种效应变得更强当收购阶段持续更长时间。这是因为对第一组偶发的丰富经验使学习者认为他们过渡到另一组偶发的可能性更小,因此与第二组偶发相关的记忆表达得更少(见正文中的图3C)。背景一致性(背景间波动的倒数,见Box 5)可以仅仅通过表观学习来影响单次试验学习。也就是说,在一个更(更少)一致的背景中,当前背景有更高(更低)的概率被期望持续到下一个试验,导致更多(更少)更新记忆的表达(即使在这些背景中发生了相同数量的适当学习)。

图4.相同的学习曲线可以出现由于适当的或表观的学习,或它们的组合。在三种不同的场景(A-C)下,模拟一个背景学习模型,以响应偶发事件(黑线,顶部行,将偶发事件抽象为单个标量)的步骤变化。这三种场景在不同的参数设置和初始条件下展开(例如,一个记忆对两个记忆)。任务性能(顶部一行,青色)是每个背景(中间一行,蓝色和红色)的推断分布的混合物。为简单起见,每个推断的偶发事件集都直接决定了适合于相应背景的响应大小。混合物由相关的背景概率加权(底部一行,蓝色和红色;灰色表示一个潜在的新背景的概率)。(A)纯适当的学习:对应的“偶发事件”(例如,定义的条件刺激(CS),或运动目标)可以总结为简单的一个标量,如接收无条件刺激的概率(US)的反馈状态,或力扰动的大小当达到目标。在普通被试中,这个标量的估计最初是0,当经过训练时,它会随着CS与US一致配对,或与目标的力扰动(中间行)而增加。这就产生了一个经典的学习曲线。请注意,在这个例子中,背景推理没有任何作用,因为(模拟的主题假设)在任何时候都只有一个背景在起作用,因此概率在任何时候都只能是恒定的(底部一行)。(B)纯表观学习:现有(红色)内存的偶发事件已经更新到一些非零水平(这里是1,为简单起见)表示更多的时间,相对于基线内存(蓝色,0),作为其相关背景推断是活跃的增加概率(底部行,红色背景的概率增加)。因此,记忆更新在这里没有任何作用,因为两个背景的估计偶发事件在时间上都是恒定的(中间行)。(C)适当和表观学习的混合:一个新的(红色)记忆被创建和更新,但也随着时间的推移表现得更多。重要的是,这些不同的学习形式可以产生相同的适应曲线[(A-C),顶部面板],尽管有完全不同的内部表征(中间和底部面板)。

6. 各种与背景相关的学习模型

早期开发的理论框架可以通过多种方式进行修改或推广,以捕捉背景的不同特征以及对背景学习的相应特征。这可以通过在生成过程中加入替代建模假设来实现,这反过来改变推理过程和经验组织到特定情境的记忆。

6.1 单背景模型和多背景模型

大多数的学习模式都没有背景的概念。其中一些已经明确地表达了与我们之前描述的背景学习模型类似的贝叶斯术语,如基于卡尔曼滤波的运动学习模型,或经典条件反射,或使用奖励偶发的贝叶斯先验的经济决策模型。因此,这些模型背后的生成模型是图2A中所示的一种特殊情况,其中只有一组偶发事件总是活跃的(图2B和4A)。

重要的是,即使是最初没有被正式化为贝叶斯模型的经典模型,也可以被重新推导为类似的模型(例如,参见经典条件反射的雷斯拉-瓦格纳模型和运动学习的状态空间模型的贝叶斯处理)。一旦以这种方式形式化,那么与图2A中一般的多背景情况进行比较,就会立即揭示这些模型的基本单背景性质(也就是说,它们类似于图2B中所示的模型)。这可能是令人费解的,这些模型也表明存在一些记忆痕迹(表示为预测权重与不同的刺激,或过程与不同的底层学习和/或保留率),这似乎是类似于多个记忆对应不同背景学习的模型我们之前描述(例如,为每个c推断x t (c))。然而,这些关于多重记忆的概念之间有一个关键的区别。在背景学习模型中,假设每个时间步的观察结果是由单个背景生成的。因此,当一个背景推断不负责观察通过一段时间,它的记忆保存(模假设的内在持续的动态),由于表观的学习,它可以很容易地恢复一旦背景推断再次活跃。具有多个记忆跟踪的单背景模型假设,即使是隐式的,这些跟踪中表示的所有偶发事件在任何时候都有贡献(具有固定的相对权重),因此也可以表达和更新所有这些跟踪。因此,除非通过重新学习,否则不会“回到”以前所代表的精神状态。换句话说,单背景模型不能通过构建来显示表观的学习能力,而正是这种无能阻止了它们返回。多背景模型在索引当前背景的表示上可能会进一步不同。这可以简单到指向离散的不同背景之一的指针,正如我们之前假设的,或者更复杂,使用组合或连续表示(Box 4)。

Box 4. 简单的和复杂的背景表示

在正文中,我们已经将背景的概念简单地定义为一个离散的潜在原因。这种简单的潜在原因模型假设在每个时间点上恰好有一个潜在原因是活跃的,因此在潜在原因和背景之间存在一个一对一的映射。相比之下,成分潜在原因模型假设多个潜在原因可以在每个时间点上活跃起来,因此一个背景被形式化为潜在原因的独特组合。重要的是,这种组合表示允许强大的泛化形式,因为以前经历过的潜在原因可以以新的方式组合来表示新的背景。例如,在网格世界导航任务,人类代表背景组合(当有益的)通过推断单独的潜在原因奖励功能(目标位置)和状态转换函数(映射从状态和行动到下一个状态),允许新任务快速学习通过将他们表示的组合以前有经验的奖励和状态转换功能。同样地,在运动控制中,我们也可以利用我们之前对不同物体的经验,将它们结合起来控制一个新的物体。

背景也可能在一个连续体上发生变化,而不是每一个连续体本身都是一个完整的岛屿,与所有其他背景的距离相等。在这种情况下,不同背景的偶发事件需要(也应该)预先假定为独立的,而可以假定它们的相似性和不同性来反映背景本身之间的度量关系。这再一次可以大大提高泛化效果。例如,我们学会了控制所有位于同一物体流形上的物体(例如,不同车轮直径、重量和高度的自行车),我们可以快速适应同一流形上的新物体。

无论是离散的、组合的还是连续的,上述所有的表示都是“平坦的”。相反,背景可能是层次结构组织,在介绍中给出的例子:鼠标遇到雪貂可能与多个背景的不同层次结构,识别遇到发生的森林,森林内的特定,和清理的擦洗。此外,这些背景可能在不同的时间尺度上进化。例如,老鼠在森林之间移动相对缓慢,但在森林中,从一个灌木飞镖到另一个灌木。事实上,有证据表明,即使是随机的材料,在记忆中也是分层组织的,这表明对分层背景表征存在强烈的归纳偏差。为了适应这些归纳偏差,我们之前提出的背景学习基础的生成模型(见正文中的图2A)可以通过背景的层次表示进行扩展。

单背景模型和多背景模型之间的一个关键区别是它们解释环境可变性的方式,即波动性。单背景模型必须将波动率分配给偶发事件的变化,而多背景模型可以将相同的波动分配给偶发事件的变化或背景中的变化(Box 5)。

Box 5. 挥发性

在经典的单背景学习模型中,背景的波动性被定义为偶发事件的试验间的可变性。在卡尔曼滤波器中(见正文中的图2B)中,这种可变性是由“过程噪声”的方差决定的,即偶发事件的时间演化中的噪声(x)。生成模型中较大的过程噪声在推理过程中产生更大的不确定性,从而产生更大的贝叶斯最优学习率。然而,在多背景模型中,术语波动性被用来描述背景的另一个属性,即背景从一个试验切换到下一个试验的可能性,这是由背景转换概率决定的。

不幸的是,这些不同类型的波动,我们称之为背景内部和背景之间的波动,有时会被合并。例如,单背景模型估计背景波动被用来推断人类如何学习在多环境经济决策任务,奖励率保持固定的试验但偶尔开关(例如,0.2和0.8之间)从一个试验到下一个隐蔽的方式(即,没有明确的线索)。当奖励生成的切换多背景过程,单背景模型学习背景内波动增加(作为一个单一,背景不变的奖励率假设从0.2跳到0.8,反之亦然),尽管真正的背景内波动的生成过程实际上是零(每个背景中的奖励率永远不会改变)。事实上,通过将Rescorla-Wagner模型的学习率拟合到他们的二元选择,这种过程的学习率随着更多的切换而增加。这是一个单背景学习者所期望的,调整其学习率适应背景的波动。然而,最近有研究表明,多背景模型中背景推理导致的记忆表达的变化可以模拟单背景模型学习率的变化。具体来说,在运动适应的类似背景中,背景一致性(背景间波动的倒数)已被证明是学习率明显变化的基础(见Box 3)。这就留下了一种可能性,即早期关于奖励率对(明显的)学习率影响的结果揭示了背景推理的特征,而不是为调整(适当的)学习率本身提供证据。需要使用适当的(多背景)模型类来对数据进行基于模型的(重新)分析,以便在这些假设之间做出正确的判断。

6.2 静态与动态突发事件

一个关键的设计选择是,假设背景特定的突发事件是静态的还是随时间变化的。(请注意,即使是随着经验的积累,关于静态或有事件的推断也会随着时间的推移而变化。)即使是非贝叶斯学习的模型,这种选择仍然相关。例如,记忆偏向于最近的观察(例如,通过使用恒定的学习速率)和/或即使在没有经验的情况下也会发生改变(例如,由于自适应遗忘)的模型隐式地假设偶发事件是时变的。相比之下,记忆同样依赖于所有过去的观察(至少在相同的背景下,例如,通过使用与观察次数成反比的学习率),并且在没有经验的情况下不改变的模型隐式地假设偶发事件是静态的。

所有当前的运动学习模型(无论他们假设背景是由单一背景还是多个背景组成)都同意,时变偶发对于捕捉运动记忆的动态是至关重要的。类似地,最广泛使用的条件反射模型和简单的经济决策任务模型使用恒定的学习率,因此隐式地假设时变偶发事件。相比之下,与背景相关的经济决策任务的模型通常没有考虑到时变偶发事件的概念。这些任务的贝叶斯模型假设偶发事件(奖励函数)是静态的,因此在同一背景下对所有观察结果的权重相同。

6.3 背景转换动力学

一旦引入了多个背景的概念,推断当前背景就变得至关重要,因为记忆的创建、表达式和更新都依赖于这个推断。反过来,这种推断取决于背景动态,即背景之间的转移概率。最简单的一类模型假设一致的转移概率(除了自转移偏差,使“来自”背景最可能),因此暗示了一些背景间波动性的固定水平(Box 5)。一个更丰富的模型类通过转移概率依赖于“到”背景(从而区分背景的总体频率)来打破背景(接近)一致性,但仍然限制它们对每个“来自”背景是相同的。同样,可以添加自过渡偏差,在变化波动模型(即具有时变背景间波动的模型)中,本身可能随时间而变化。这样的模型无法解释学习的差异出现在背景中只有不同背景之间的过渡,如背景一致性的影响单试验学习(Box 3),自发恢复,最近证明学习丰富的背景过渡结构的两步顺序决策范式。

在另一个极端是模型,其中转移概率取决于“从”和“到”背景,没有任何额外的约束。虽然这些模型非常灵活(也就是说,它们可以学习任何背景转换矩阵),但它们不提供跨背景的泛化,因此来自每个新遇到的背景的转换概率需要从头开始学习(参见后面的“层次结构”)。层次模型提供了完全一致性和极端灵活性之间的妥协,其中转换概率也取决于“从”和“到”背景,但预先预期,在每个“从”背景之间表现出某种程度的相似性(图2C),从而支持泛化和学习到学习。这种模型最近解释了来自使用不同的背景转换结构的大量不同范式的经验数据。

6.4 已知的和未知的背景数量

一些模型假设学习者知道背景中背景的真实数量(例如,通过固定模型中的上下文/模块的数量)。这些模型没有记忆创建的概念,因为记忆的数量从一开始就是固定的。然而,在大多数现实世界的场景中,假设学习者知道背景的真实数量是不现实的,因为这个数字通常只有通过经验才能知道。因此,另一类模型从经验中学习环境中背景的数量。这些模型要么假设有有限数量的背景真的存在,我们只是不知道先验这个数字是,而其他人[所谓的贝叶斯非参数模型,例如,分层狄利克雷过程(HDP),看到后来在“层次”)假设确实有一个无限的背景,只有环境的数量我们经历在任何有限的时间内一定是有限的。无论如何,每当推断出一个新的背景时,这些模型都会创建一个新的记忆。目前是一个悬而未决的问题即大脑是否使用固定数量的记忆,只是折扣那些没有与以前遇到的背景(通过设置相应的背景概率为零表达和更新),或动态添加新的记忆需要出现(每当遇到一个新的背景)。

6.5 特定情境记忆的重组

除了在遇到新的背景时创建新的记忆外,在资源分配框架中,重组现有的记忆也可能是有益的。例如,如果背景很长或长时间没有遇到,修剪这个背景的记忆以释放计算资源可能是有用的。同样地,如果多个记忆变得足够相似,它可能证明了这些记忆的合并。虽然启发式决定何时修剪或合并记忆已经提出,原则的贝叶斯内存修剪和合并需要这些修剪和合并操作自然出现的推理在适当定义生成模型(例如,一个模型的小说背景可以出现和以前遇到的背景可以消失或合并)。这种生成模型的一个例子是在中的多目标跟踪模型在信号处理文献中,新的目标(类似于偶发事件)可以在不同的时间点“诞生”,现有的目标可以分裂、合并和“消退”。要做出关于是否删除现有记忆的最佳决定,可能需要权衡释放记忆和计算资源的好处和删除以后需要的记忆的成本。这种重组是否真的发生了,如果是,睡眠是否在这种重组中起着特殊作用,这又是一个悬而未决的问题,正如睡眠对运动和知觉技能的各种有益影响所表明的那样。

6.6 层次偶发和学习

虽然为不同的背景创建单独的记忆可以防止干扰,但当背景共享共同的属性和特性时,它也也阻止了背景一般知识的有益转移。跨情境共享知识的能力对于迁移学习和学习学习至关重要。因此,在多背景环境中,不仅需要为每个背景创建单独的记忆,而且还需要允许这些记忆共享共同的元素。层次贝叶斯模型通过利用归纳偏差自然地实现了专业化和泛化之间的权衡(Box 6),该偏差表明不同上下文的偶发事件共享一些共同的结构。

Box 6. 层次贝叶斯模型

贝叶斯模型通过将先验分布来编码在“局部”参数(背景特定的偶发事件)上的归纳偏差。此外,在层次贝叶斯模型中,这些局部先验依赖于一组共享的“全局”超参数,这些超参数本身也有自己的超先验分布。在推理过程中,同时学习了先验分布的局部参数和全局超参数,后者支持学习到学习或元学习。因此,这种层次组织在学习过程中每个情境的偶发事件之间产生依赖关系。也就是说,在一个背景中的经验将导致全局超参数被更新,而这反过来又将导致所有背景的突发事件被更新。因此,在小数据体系中,层次模型支持对以前经历过的背景(向后转移)以及尚未经历过的未来背景(向前转移)的知情推断。特别是,而不是必须学习每个新背景的突发事件,这将是低效的,学习突发事件的事先分布可以利用初始化新环境的突发事件以明智的方式,这样他们只需要微调,从而允许快速提高性能。

在认知科学中,层次贝叶斯模型已经被用来解释人类如何学习概念、抽象知识和归纳偏差。在背景学习的背景下,层次狄利克雷过程(HDP)是一个贝叶斯非参数模型,被提出作为人类如何在多背景环境中平衡专业化和泛化之间的权衡的模型。具体来说,HDP被用来定义一个分布背景转移矩阵的分层方式,这样每个本地过渡分布(行过渡矩阵),对应于过渡概率从每个特定的背景,依赖于一个全局过渡分布共享,决定每个背景的预期总体频率。

虽然建立在相同的理论概念之上,但背景内容(偶发事件)中的层次结构不同于我们在Box 4中讨论的背景本身的层次结构表示。例如,即使使用背景的简单“平面”表示,偶发事件仍然可以分层组织。事实上,背景之间转换概率的层次表示(其偶发事件的一个组成部分)已经被证明是运动学习中自发恢复和顺行干扰的基础,而没有调用背景本身的层次表示。

7. 总结及未来发展方向

越来越多的实验和建模工作表明,人类和其他动物将他们连续的感觉运动经验流分割到不同的背景中。这在多个认知领域都是如此,包括经典条件反射、情景记忆、强化学习、空间认知和运动学习。分割的核心是背景推理,它控制着记忆如何被创建、更新和表达。重要的是,记忆表达对背景推理的依赖导致了一种直到最近才未被重视的学习形式:表观学习。

表观学习对于未来的学习和记忆的研究有重要的意义,因为它意味着观察到的行为并不能为正确的学习提供一个直接的窗口。因此,为了适当地解释行为数据,并研究学习的神经机制,一个更微妙的方法将是必要的。鉴于行为中的适应性变化可以来自于适当的和表观学习的组合,必须考虑背景推理,以便可靠地识别这些过程的个人贡献。一般来说,背景推断既可以被测量出来(例如,使用神经测量),也可以从行为中推断出来(例如,使用一个计算模型)。代替能够直接测量背景推断的可靠方法,一个能够展示适当和表观学习的模型可以适合于参与者的数据,以识别这两种形式的学习的贡献。解剖正确的和表观学习对行为的贡献将有助于识别它们各自的神经基础。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值