A Theory of How Columns in the Neocortex Enable Learning the Structure of the World 论文研读

1 摘要

皮层区域被组织成柱状和层状。各层之间的连接主要垂直于表面,表明是柱状的功能组织。有些层具有长期的兴奋性横向连接,表明柱之间存在相互作用。所有地区都存在类似的连接模式,但它们的确切作用仍是一个谜。在本文中,我们提出了一个由列和层组成的网络模型来进行鲁棒的对象学习和识别。每一列都集成了它随时间变化的输入,以学习观察到的完整预测模型。跨列的兴奋性横向连接允许网络根据相邻列的部分知识更快地推断对象。因为列整合了时间和空间上的输入,所以网络得以学习复杂对象的模型,这些模型远远超出了单个细胞的接受域。我们的网络模型为皮层列引入了一个新的特征。我们建议在每一列的亚颗粒层中计算相对于被感知对象的位置的表示。定位信号作为网络的输入提供,并与感知数据相结合。我们的模型包含两个层和一个或多个列。仿真表明,使用类似于Hebbian的学习规则,小型单列网络可以学习识别数百个对象,每个对象包含数十个特征。多列网络识别对象时,感觉感受器的活动明显减少。考虑到柱状和层状连接模式在大脑皮层中无处不在,我们认为柱状和层状连接模式比之前假设的具有更强大的识别和建模能力。

2 模型

动机

我们的研究重点是新皮层神经元网络如何学习世界的预测模型。在此之前,我们引入了一个网络(Hawkins和Ahmad, 2016),该网络学习一个自然变化的感觉序列的预测模型。在这篇论文中,我们扩展了这个网络来解决新皮层如何学习静态物体的预测模型的相关问题,在这个模型中,感觉输入由于我们自身的运动而改变。一个简单的思维实验可能有助于理解我们的模型。想象你把手伸进一个黑盒子里,试着确定盒子里是什么东西,比如说一个咖啡杯。只用一根手指,你不太可能通过一次触摸来识别物体。然而,在与杯子接触一次后,你的手指会移动,并触摸另一个位置,然后再触摸另一个位置。在几次触摸之后,您将该对象标识为一个咖啡杯。识别杯子需要的不仅仅是手指的触觉,大脑还必须整合手指如何移动的知识,以及手指相对于杯子的位置。一旦你认出了杯子,手指的每一个额外的移动都会产生一个预测,预测在运动之后手指会在杯子上的什么位置,以及手指到达新位置时的感觉。这是我们想要解决的第一个问题,一个小的感觉阵列(例如,指尖)如何通过整合感觉和运动衍生的位置信息来学习三维物体的预测模型

如果你同时使用两个手指,你可以用更少的动作来识别杯子。如果你用五个手指,你通常可以用一个手指来识别一个物体。这是我们想要解决的第二个问题,即一组感知阵列(例如,多个手指的指尖)如何协同工作,从而比单独识别一个物体的速度更快

躯体推理显然是一个感觉运动问题。然而,视觉和听觉也是感觉运动任务。因此,感觉运动学习和推理的机制应该存在于所有的感觉区域,任何提出的网络模型都应该反映存在于所有皮层区域的详细解剖和生理特性。这种映射,是对常见皮层回路的一种解释,是我们模型的第三个目标。

模型描述

我们的模型扩展了先前的工作,展示了单层锥体神经元如何学习序列并做出预测(Hawkins和Ahmad, 2016)。目前的模型由两层呈列状排列的锥体神经元组成。模型有一个或多个这样的列(图1A)。每个皮质柱处理感觉输入空间的一个子集,当传感器移动时暴露在世界的不同地方。目标是让每一列的输出层收敛于一个对象表示,该对象表示与随时间和跨所有列的累积感觉一致。

模型中每一列的输入层接收一个感知输入和一个位置输入。该感知输入是一个稀疏的二进制数组,表示其输入空间中的当前特征。位置输入是一个稀疏的二进制数组,表示特征在对象上的位置。在新皮层中有大量的观察结果表明接受域被位置信息所改变。内嗅皮层的网格细胞也解决了类似的位置编码问题,因此代表了一个新皮层中位置是如何产生的模型。我们将在讨论部分进一步探讨这些想法。对于我们的模型,我们要求

a. 特征在对象上的位置与对象的方向无关
b. 附近的位置具有类似的表示。

第一个特性允许系统在物体以相对于身体的新位置被感知时做出准确的预测。第二个特性允许噪声容忍—您不必总是在精确的相同位置感知对象。下面我们将介绍我们的神经元模型、层与列之间的连接,以及感觉与位置输入如何随着时间的推移而结合起来以识别对象。有关激活和学习规则的更详细描述,请参阅材料和方法部分。
在这里插入图片描述

神经元模型

我们在网络中使用HTM模型神经元(Hawkins和Ahmad, 2016)。HTM神经元具有锥体细胞的树突状特征(Spruston, 2008,其中近端、基底和顶端的树突状节段具有不同的功能(图1B)。在近端树突上检测到的模式代表前馈驱动输入,可以使细胞变得活跃。在神经元的基底和顶端树突上识别的模式代表调节输入,并将导致树突突刺和细胞去极化,而不会立即激活。去极化细胞比识别相同前馈模式的非去极化细胞更早触发,从而抑制非去极化细胞。在本文的其余部分,我们将近端树突输入称为前馈输入,将远端基底和顶端树突输入称为调节输入。

输入层

每个皮层柱的输入层由排列成小柱的HTM神经元组成。这里的小柱表示神经元的垂直排列。在我们的模拟中,每个皮质柱一般有150-250个微柱,每个微柱有16个细胞(相当于2400 - 4000个细胞)。这一层细胞的前馈输入是感觉输入。正如Hawkins和Ahmad, 2016所述,小柱内的细胞识别相同的前馈模式(Jones,2000)。我们将每个感官特征映射到一组稀疏的小柱上。

输入层中细胞的基础调节输入表示对象上的位置。在学习过程中,在每个活动的小柱中选择一个细胞来学习当前的位置信号。在推理过程中,识别调节输入和前馈驱动输入的细胞会抑制微柱中的其他细胞。通过这种方式,输入层形成了一个稀疏的表示,对于对象上特定位置的特定感官特征是唯一的。

输出层

输出层也包含HTM神经元。输出层中的活跃细胞集合表示对象。输出层的细胞接收来自输入层的前馈驱动输入。在学习过程中,代表一个对象的一组细胞在多个动作中保持活跃,并学习识别输入层中的连续模式。因此,一个对象在输出层中包含一个表示,在输入层中包含一组相关的特征/位置。输出层中细胞的调制输入来自表示相同对象的其他输出细胞,既来自列内,也来自通过远程横向连接的相邻列。与输入层一样,调制输入起调制作用。调节输入较多的细胞对调节输入较少的细胞有抑制作用。代表相同对象的单元格会彼此产生正偏置。因此,如果一个列在t时刻对对象a和B有前馈支持,在t+1时刻对对象B和C有前馈支持,则由于t时刻的调制输入,输出层将在t+1时刻收敛于对象B的表示。同样,如果列1对对象A和B有前馈支持,列2对对象B和C有前馈支持,那么两列的输出层将收敛于对象B的表示。

反馈连接

输入层的神经元接收来自输出层的反馈连接。反馈输入代表一个对象,结合调制输入代表一个预期的由于移动产生的新位置,允许输入层更精确地预测下一个感官输入。在我们的模型中,反馈是一个可选组件。如果包括,它提高了鲁棒性的感觉噪声和模糊的位置。

实例分析

图2说明了单个皮层柱的两层如何协作来消除具有共同特征的对象的歧义,在这个例子里是一个正方体和一个楔形。标记为 f 1 f_1 f1的第一个感知特征位置是模糊的,因为它可能是任何一个物体的一部分。因此,输出层同时调用表示的并集,表示在该位置具有该特性的每个对象。从输出层到输入层的反馈使细胞处于预测状态(如红色所示)。预测的单元格表示与输出层中活动的对象集一致的所有特征位置的集合。因此,红色细胞代表了网络的预测,这些预测与到目前为止的感觉是一致的。当第二次感知被标记为 f 2 f_2 f2时,只有与这些预测一致的细胞子集才会变得活跃。每一个后续的感觉缩小集合,直到输出层中只表示一个对象。关于算法的详细介绍可以在附录中找到视频。
在这里插入图片描述

学习

学习是基于简单的Hebbian-style adaptation当细胞激活时,先前活跃的突触会加强,而不活跃的突触会减弱。与大多数其他神经模型相比,有两个关键的不同之处。首先,学习孤立于单个的树突片段。第二,模型神经元通过生长和移除潜在突触池中的突触来学习。我们通过增加或减少一个我们称之为“permanence”的变量来模拟突触的生长和移除。突触的效力,或者说权重,是基于“permanence”阈值的二元变量。因此,系统学习的速度和记忆保留的时间可以独立于突触的权重进行调整。生物学动机的完整描述可以在Hawkins和Ahmad, 2016中找到。下面我们将简要描述这些原则如何使网络学习;正式的学习规则在材料和方法部分有描述。

输入层学习特定的特性/位置组合。如果当前的特征/位置组合以前没有被学习过(没有预测单元),那么每个活跃的mini-column中的一个细胞将被选择为winner,并成为活跃细胞。通过随机初始条件选择最佳调制输入匹配的单元作为winner cell。每个winner cell通过形成和加强与当前位置输入的调节连接来学习。如果再次遇到位置输入,将预测相应的单元集。如果预期的感觉特征到达,预测的细胞将首先触发,相应的调节输入将被加强。获胜细胞的顶端树突与输出层的活跃细胞形成连接。

输出层学习与对象对应的表示。当网络第一次遇到新对象时,选择输出层中的稀疏细胞集来表示新对象。当系统在不同的位置感知物体时,这些细胞保持活跃。输入层不断变化的活跃细胞与输出层不变的活跃细胞之间的前馈连接不断加强。因此,每个输出细胞池在输入层的多个特性/位置表示上。输出层细胞上的树突片段通过与自身柱内的活跃细胞和附近柱内的活跃细胞形成横向调节连接来学习。

在训练中,我们在切换到新对象时重置(reset)输出层。在大脑中,有几种相当于重置的情况可能发生,包括足够长的一段时间没有感觉。当学习一个新对象时,我们通过随机初始连接选择基于最佳匹配的对象表示。

讨论

与之前模型的关系

由于新的实验技术的发展,皮层的层流回路的知识不断增长(Thomson和Bannister, 2003; Thomson and Lamy, 2007)。现在可以在整个皮层柱中重建和模拟电路(Markram等,2015)。多年来,人们进行了大量的努力来建立皮层柱的模型。许多皮层柱模型旨在解释皮层的神经生理特性。许多皮层柱模型旨在解释皮层的神经生理特性。例如,基于他们对猫视觉皮层的研究(Douglas and Martin, 1991),提供了皮质柱的第一个典型微电路模型之一。这个模型解释了细胞内对脉冲视觉刺激的反应,并一直保持着高度的影响力(Douglas and Martin,2004)。Hill和Tononi(2004)构建了一个大型的点神经元模型,这些点神经元被组织成一个重复的柱状结构,以解释睡眠和清醒时大脑状态的差异。Traub等人(2004)建立了一个基于多室生物物理模型的单柱网络模型来解释振荡、癫痫和失眠现象。Haeusler和Maass(2007)比较了有和没有薄片特异性结构的皮层微电路模型,并证明了更现实的皮层微电路模型的几个计算优势。Reimann等(2013)发现皮层局部场电位可以用一个由超过12000重建的多室神经元组成的皮层柱模型来解释。

虽然这些模型对神经生理信号的起源提供了重要的见解,但提出层和柱的功能作用的模型相对较少。Bastos等人(2012)讨论了皮质柱的微电路与预测编码所隐含的连接性之间的对应关系。这个研究使用基于Douglas和Martin(2004)工作的粗糙微电路模型,缺乏最近的实验证据和详细的跨列连接模式。

Raizada和Grossberg(2003)描述了LAMINART模型来解释注意力是如何在视觉皮层中实现的。本研究强调了L4-L2/3网络的解剖联系,并提出感知分组依赖于L2/3的远程外侧连接。这与我们在L2/3中提出的稳定对象表示是一致的。最近的一项最优环境整合理论提出,使用远程横向连接来最优地整合来自周围环境的信息(Iyer和Mihalas, 2017)。

皮质柱的好处

我们的研究以Mountcastle对皮质柱的定义为指导(Mountcastle, 1978, 1997),皮质柱是一种“由许多小柱通过短程水平连接连接在一起”的结构。这一概念在本文提出的理论中起着至关重要的作用。我们的部分理论是,感觉皮层的每一个重复单元,或“柱”,都可以通过对感觉和位置数据随时间的局部整合来学习完整的物体。此外,我们还提出,多个皮层柱通过并行地整合分散的感觉区域的信息,大大加快了推理和识别时间。

一个有待解决的问题是柱子的确切解剖结构。我们选择描述具有离散列间边界的列的模型。这种定义明确的结构在大鼠的桶状皮层最为明显(Lubke et al., 2000;Bureau等,2004;(Feldmeyer et al., 2013)但Mountcastle等人指出,虽然生理和解剖特性偶尔会有不连续,但结构的范围是多样的,更普遍的规律是连续性(Mountcastle, 1978;Horton and Adams, 2005;Rockland, 2010)。

Mountcastle的重复功能单元的概念,无论是连续的还是离散的,都有助于理解皮层功能的原理。我们的模型为列分配了计算优势,即在不同区域并行地集成不连续的信息。这一基本能力独立于任何特定类型的柱(如超柱或眼优势柱hypercolumns or ocular dominance columns),独立于离散或连续结构。关键的要求是,每一列都要模拟一个不同的感知空间子集,并随着传感器的移动而暴露在世界的不同地方。

具体实现

符号表示

N i n N^{in} Nin表示输入层的mini-column的数量, M M M表示每个输入层的mini-column的细胞数, N o u t N^{out} Nout表示输出层的细胞数, N c N^c Nc表示皮质列的数量。对每一个皮质列,输入层和输出层的细胞数量分别为 M N i n MN^{in} MNin N o u t N^{out} Nout。每个输入细胞同时接收感知输入和与位置信号相对应的上下文输入,其中位置信号是 N e x t N^{ext} Next维的稀疏向量 L \pmb{L} LLL

对任意一个细胞,有下列三种状态:活跃态,预测态和不活跃态。我们用 M × N i n M\times N^{in} M×Nin的二值矩阵 A i n \pmb{A}^{in} AAAin Π i n \pmb{\Pi}^{in} ΠΠΠin表示一个皮质列输入层细胞的活跃态和预测态。用 N o u t N^{out} Nout维的二值向量 A o u t \pmb{A}^{out} AAAout表示一个皮质列输出层细胞的活跃态。用 N o u t N c o l u m n N^{out}N^{column} NoutNcolumn维的二值向量 A ˉ o u t \bar{\pmb{A}}^{out} AAAˉout表示所有皮质列的连接输出。在任何时间点,只有少数细胞活跃,所以这些细胞通常非常稀疏。

每个细胞维持一个近端树突片段一组基底远端树突节段(下称基底)。近端节段包含与该细胞的前馈连接。基底段表示上下文输入。上下文输入充当了决定胜负的因素,并使细胞倾向于获胜。输入层中细胞的上下文输入用表示外部位置信号的向量 L \pmb{L} LLL表示。输出层细胞的上下文输入来自相同或不同皮层列的其他输出细胞。

对于每个树突段,我们在树突段和其他可能与之形成突触的细胞之间维持一组“潜在的”突触。学习是通过从这组潜在突触中生长出新的突触来建模的。每个潜在突触都有一个“permanence”的值,代表突触的生长。潜在的突触由大于零的permanence值表示。一个接近于零的持久性值表示未连接的没有发育完全的突触。大于连接阈值的permanence值表示已连接的突触。学习是通过增加或减少永久值来实现的

对于输入层,我们将第 j j j个mini-column的第 i i i个输入细胞的第 d d d个树突片段的permanence表示为一个 N e x t × 1 N^{ext}\times1 Next×1的向量 D i j d , i n \pmb{D}^{ijd,in} DDDijd,in。对于输出层,将第 i i i个输出细胞的第 d d d个树突片段的permanence值表示为一个 N o u t N c × 1 N^{out}N^c\times1 NoutNc×1维的向量 D i d , o u t \pmb{D}^{id,out} DDDid,out

输出神经元接收来自同一皮质列内输入神经元的前馈连接。我们将这个连接用一个 M × N i n × N o u t M\times N^{in}\times N^{out} M×Nin×Nout的张量 F \pmb{F} FFF表示,其中 f i j k f_{ijk} fijk表示第 j j j个mini-column的第 i i i个输入细胞和第 k k k个输出细胞的突触连接的permanence值。

对于 D \pmb{D} DDD F \pmb{F} FFF,我们通过在上方加点的方式(e.g. D ˙ \dot{\pmb{D}} DDD˙)表示潜在突触(即,permanence > 0)的二值向量。我们通过在上方加曲线的方式(e.g. D ~ \tilde{\pmb{D}} DDD~)表示已连接的突触(即,permanence > threshold)的二值向量。

初始化

每个树突段都被初始化为包含一组随机的潜在突触。 D i j d , i n \pmb{D}^{ijd,in} DDDijd,in初始化为包含从位置信号输入中选择的一组随机潜在突触。 D i d , o u t \pmb{D}^{id,out} DDDid,out初始化为包含一组随机的到其他输出细胞的潜在突触。这些细胞包括来自同一皮质柱的细胞。我们强制一个给定的段只包含来自单个列的突触的约束。在所有情况下,潜在突触的permanence值是随机选择的:最初一些是连接的(高于阈值),一些是不连接的。

计算细胞状态

对于输入层的细胞来说,如果它的任何一个基底远端节段具有足够的活性,则该细胞进入预测态:
在这里插入图片描述
其中 θ b i n \theta^{in}_b θbin表示输入细胞基底远端树突的激活阈值。

对于输入层,mini-column中的所有细胞共享相同的前馈接受域。根据(Hawkins和Ahmad, 2016)我们假设一个抑制过程选择了一组数量为 s s s的mini-column,它们最匹配当前的前馈输入模式。我们将这个胜利者集合称为 W i n \pmb{W}^{in} WWWin。我们用下式计算活跃的输入层细胞:
在这里插入图片描述
第一个条件表明进入预测态的细胞在获胜的mini-column中成为赢家并变得活跃。第二个条件表明如果在一个获胜的mini-column中没有细胞进入预测态,那么这个mini-column中的所有细胞都将变成活跃态(Bursting)。

为了确定输出层的活性,我们计算每个细胞的前馈和横向输入。具有与输入层重叠足够前馈的,并且有最多的来自前一时间步的最外侧的支持的细胞变的活跃。第k个输出细胞的前馈输入为:
在这里插入图片描述
其中 I [ ] I[] I[]是集合论中的指示函数。
具有足够前馈输入的输出细胞集合计算为:

在这里插入图片描述
其中 θ p o u t \theta^{out}_p θpout表示阈值。然后我们按照活跃基端树突片段的数量将这些细胞排序,以选出活跃态的输出细胞:

在这里插入图片描述
其中在这里插入图片描述表示

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值