A Framework for Intelligence and Cortical Function 论文研读

最新推荐文章于 2024-10-11 17:20:12 发布

DayLight233

最新推荐文章于 2024-10-11 17:20:12 发布

阅读量356

点赞数

文章标签：人工智能

原文链接：https://numenta.com/neuroscience-research/research-publications/papers/a-framework-for-intelligence-and-cortical-function-based-on-grid-cells-in-the-neocortex/

版权

grid cell 通常被认为存在于大脑的内嗅皮层中。这篇论文提出grid cell 存在于皮质的任何一个区域的任何一个皮质柱(cortical columns)中。它定义了基于位置（location-based）的皮质功能框架。这篇论文提出假设：大脑皮层的每一个部分都学习客观物体的完整模型。对于每一个客观物体都有许多模型贯穿于整个皮质层中。

对层次模型的认识

列学习完整对象的模型的思想是新颖的。神经科学中普遍接受的智慧描述了在一个层级系统中学习的对象。多年来，神经科学家已经认识到，大脑的各个区域是按等级顺序连接在一起的。这个区域将输入传递给其他区域，其他区域再将其传递给另一个区域，直到最终到达层次结构的“顶部”。人们普遍认为，随着数据的层次上升，大脑会提取出越来越复杂的特征。想象一下看到一只狗。在视觉层次的最底层，我们的大脑可能识别简单的线条、颜色或纹理;下一层可能识别更复杂的特征，如耳朵的曲线，下一层可能识别狗的脸，在最高一层，大脑会宣布结果为“狗”。

但这种层次模型一直是不完整的。首先，有许多神经元水平地相互投射、层间投射、区域间投射，而不只是垂直地投射到它们的女儿或母亲区域。在纯层次模型中，这些连接是不必要的。事实上，超过95%的新大脑皮层突触并不能用纯粹的层次模型来解释。此外，许多人工智能和深度学习网络都是建立在这种层次模型上的。他们通常需要几十个层次和数百万个例子来学习一些东西

基于位置的框架如何学习各种丰富的模型

对象组合（Object Compositionality）

学习一个咖啡杯，与其学习咖啡杯在每一个位置的感觉，不如将咖啡杯看做已经学习的对象的组合：一个圆柱体和一个把手。再比如下图中，一个印有logo的咖啡杯可以看做是logo和咖啡杯的组合。那么皮质柱是如何使得一个新对象看做多个已学习对象的组合的呢？
对象组合
我们已经提出，每个对象都与一组位置相关联，这些位置对于对象是唯一的，并且组成了对象周围的空间。如果手指触摸标志的咖啡杯,然后代表手指位置的大脑皮层网状细胞（grid cell）一方面可以代表手指在咖啡杯空间中的位置，另一方面，在重新锚定后，可以代表手指在logo空间中的位置。如果商标是贴在杯子上的，那么商标空间中的任意一点和杯子空间中的等价点之间就有一种固定的一对一的关系。通过创建一个“位移”向量（displacement vector），将杯子空间中的任意点转换为标志空间中的等效点，就可以完成在杯子上表示标识的任务。

确定两个物体之间的位移类似于以前研究过的导航问题，具体来说，动物如何知道如何在一个环境中从a点到b点，如上图左下角中显示的那样。解决定位问题的机制（决定同一空间内两点之间的位移向量）同样可以被用来解决组合问题（决定决定两个不同空间内两点之间的位移向量）

位移细胞（Displacement Cell）

我们的方案依赖于检测两组活跃的网格细胞（grid cell）之间的差异，但是，我们建议在网格细胞模块的基础上逐个检测网格细胞模块。位移细胞类似于网格细胞，因为它们不能单独表示一个唯一的位移。然而，多个位移细胞模块中的细胞活动表示唯一的位移，这与多个网格单元模块中的细胞活动表示唯一的位置非常相似，见上图右下角。因此，一个单一的位移矢量可以代表咖啡杯上的标志在一个特定的相对位置。注意，位移矢量不仅表示两个物体的相对位置，而且是唯一的。复杂的物体可以用一组位移向量来表示，这些向量定义了一个物体的组成部分以及它们之间的相对排列方式。这是一种表示和存储对象结构的高效方法。

这种表示对象的方法允许分层组合。例如，杯子上的标志也由子对象组成，如字母和图形。将标识放置在杯子上的位移矢量隐式地携带标识的所有子对象。该方法还允许递归结构。例如，标识可以包含一个带有标识的咖啡杯的图片。层次结构和递归组合不仅是物理对象的基本元素，也是语言、数学和其他智能思维的表现形式的基本元素。它的关键思想是用一个位移矢量可以有效地表示两个以前学过的对象，甚至是复杂对象的身份和相对位置。

网格细胞和位移细胞执行补充操作

网格细胞和位移细胞执行互补操作。网格细胞根据当前位置和位移矢量(即位移矢量)确定新位置（即运动）。
位移细胞确定从当前位置到达新位置所需的位移。

在这里插入图片描述
如果两个位置在同一个空间中，那么网格细胞和位移细胞对于导航是有用的。在这种情况下，网格细胞根据起始位置和给定的移动来预测新的位置。位移细胞表示从Location1到Location2所需的移动。

如果这两个位置在不同的空间中(相对于两个不同的对象是相同的物理位置)，那么网格单元和位移单元对于表示两个对象的相对位置是有用的。网格单元根据给定的位移将一个对象空间中的位置转换为第二个对象空间中的等效位置。在本例中，位移单元表示两个对象的相对位置。

我们认为所有的皮质柱（cortical column）中都存在网格细胞和位移细胞。它们在基于位置的皮层处理框架中执行两个基本和互补的操作。通过在单个对象空间中的位置表示和两个不同对象空间中的位置表示之间的交替，新皮层可以使用网格细胞和位移细胞来学习对象的结构并生成操作这些对象的行为。

内嗅皮层中网格细胞的存在已被证实。我们认为它们也存在于大脑皮层的所有区域。位移细胞的存在性是本文的一个预测。我们认为位移细胞也存在于新皮层的所有区域。考虑到它们与网格细胞的互补作用，在海马复合体中也可能存在移位细胞。

对象行为

对象可能表现行为。例如，考虑下图中的订书机。可将订书机顶部提起并旋转。这个动作改变了订书机的形态，但没有改变它的身份。即使整体的形状已经改变了，我们也无法将开合订书机视为两个不同的物体。对象的一部分相对于另一部分的移动是对象的一种“行为”。物体的行为是可以习得的，因此它们必须在皮层柱的神经组织中表现出来。我们可以在基于位置的框架（location-based framework）中表示行为，同样使用位移向量。订书机的上半部分和下半部分是订书机的两个部件。顶部和底部的相对位置由一个位移矢量表示，其方式与logo和咖啡杯的相对位置相同。然而，与咖啡杯上的标志不同的是，订书机的两半可以相对移动。当钉书器顶部向上旋转时，钉书器顶部到底部的位移发生变化。因此，订书机顶部的旋转由一系列位移矢量表示。通过学习这个序列，系统将学习对象的这种行为。

开合订书机是不同的行为，但它们是由相同的位移元素，只是顺序相反。这些序列有时被称为“高阶”序列。之前我们描述了一种学习神经元层中高阶序列的神经机制
在这里插入图片描述

“What” and “Where” Processing

感觉处理发生在两个平行的新皮层区域，通常被称为“what”和“where”通路。在视觉上，“what”或腹侧通路的损伤与视觉识别物体的能力丧失有关，而“where”或背侧通路的损伤与触摸物体的能力丧失有关，即使该物体已被视觉识别。在其他感觉模式中也观察到类似的“what”和“where”的通路，因此这似乎是皮层组织的一般原则。

基于位置的皮层功能框架既适用于“what”处理，也适用于“在哪里”处理。简单的说,我们提出“what”区域和“where”区域的主要区别是“what”区域皮层网状细胞代表非自我中心的位置,在对象的位置空间中。而在“where”区域皮层网状细胞代表自我中心位置,在身体的位置空间中。下图展示了如何在“what”和“where”区域中用一个位移向量表示移动。对所有人来说，最基本的操作是，一个区域首先处理一个位置，然后处理另一个位置。位移单元将确定从第一个位置移动到第二个位置所需的移动向量。在下图最右边中，这两个位置在一个物体的空间中，因此，位移矢量将代表将手指从物体的第一个位置移动到物体的第二个位置所需要的移动。在这个例子中，“what”区域需要知道手指相对于杯子的位置，但是它不需要知道杯子或手指相对于身体的位置。在下图中间，在一个“where”区域，这两个位置在身体的空间中，因此，位移矢量将表示如何从一个以自我为中心的位置移动到第二个以自我为中心的位置。“where”区域可以执行此计算，而不需知道哪个对象是否可能在第二个位置。
在这里插入图片描述

重新思考“层次”，the Thousand Brains Theory of Intelligence

我们认为皮质柱比目前认为的更强大。每个皮层柱都学习完整物体的模型。他们通过将输入与网格细胞派生的位置相结合，然后对移动进行集成来实现这一点。这表明了对皮层层次结构的一种修正的解释，即在每一个层次层次上学习对象的完整模型，每个区域包含多个对象模型。见下图右边
在这里插入图片描述

上图表明区域之间的前馈和反馈投影通常连接到层次结构的多个级别(其中仅显示一个级别的连接)。例如，在LGN（lateral geniculate nucleus外侧膝状体）中，视网膜投射到丘脑中继细胞，然后投射到皮层区域V1、V2和V4，而不仅仅是V1。这种形式的“跳级”是规则，而不是例外。因此，V1和V2在某种程度上都对视网膜输入起作用。从LGN到V2的连接更加发散，说明V2是在不同于V1的空间尺度上学习模型。我们预测V2的皮质网格细胞的空间尺度将同样大于V1。输入到一个区域的收敛程度，与其网格单元的空间尺度相匹配，决定了该区域可以学习的对象大小范围。例如，想象一下识别字母表中的印刷字母。只有在V1中字母的最小可识别的大小将被识别。直接输入V2将缺少所需的特性分辨率。然而，较大的打印字母在V1和V2中都可以识别，甚至更大的字母可能对V1来说太大，但在V2中可以识别。分层处理仍然会发生。我们所建议的是，当一个地区
V1将信息传递给另一个区域，例如V2，它并没有传递未分类的特征的表示，但是，如果可以的话，它传递完整对象的表示。单个神经元会参与许多不同的对象表征，如果单独观察，神经元似乎代表的是感觉特征，而不是对象。皮质柱所能学习的物体数量很多，但数量有限。不是每一列都能学习每一个对象。系统容量分析需要对分层结构流有更透彻的理解，这超出了本文的范围。

有许多皮质-皮质投射与纯粹的层次处理不一致，见上图右侧绿色箭头。例如，大脑左右半球的区域之间有长范围的投影。在不同感觉模式的区域之间有许多联系，即使在最低的层次。这些连接可能不是分层的，因为它们的轴突终止于与前馈或反馈输入相关的细胞层之外的细胞。据估计，在所有可能的区域到区域的连接中，有40%实际上是存在的，这比纯粹的层次结构所显示的要大得多。这些长距离的无层次的连接的目的是什么？在Hawkins et al. (2017)中，我们提出，柱的某些层(如L4和L6)的细胞活性会随着新的感觉而变化，而代表被观察“对象”的其他层(如L2/3)的细胞活性在输入改变时是稳定的。我们展示了“对象”层中的远距离关联连接如何允许多个列对它们当前正在观察的对象进行投票。例如，如果我们看到并触摸一个咖啡杯，就会有许多列同时观察杯子的不同部分。这些列将在视觉和体感层次结构的多个级别。每一列都有一个独特的感觉输入和一个独特的位置，因此，代表位置和输入的细胞之间的长期连接是没有意义的。但是，如果这些列正在观察同一个对象，那么对象层中的细胞之间的连接将允许这些列快速定位到正确的对象上。因此，任何两个区域之间的无层次连接，即使是初级和次级感觉区域在不同的感觉模式下，如果这两个区域经常在同一时间观察同一对象，是有意义的。

关于感知的一个经典问题是，新皮层如何将不同的感觉输入融合到一个统一的感知对象模型中。提出了一种新的传感器融合模型。例如，没有一个单一的咖啡杯模型包括咖啡杯的感觉和外观。取而代之的是100多个杯子模型。每个模型是基于一个独特的子集的感觉输入在不同的感觉模式。将会有基于视觉输入的多个模型和基于体感输入的多个模型。每个模型都可以通过观察相关传感器的输入来推断出杯子的形状。然而，远程的非层级连接使得模型能够快速地达成一致的基本对象的身份，通常感觉一次就足够。

讨论

基于位置的皮层处理框架的关键要素之一是皮层区域在对象空间之间快速切换的能力。要知道咖啡杯上有一个标志，我们需要在杯子和标志之间转移注意力。随着注意力的每一次转移，皮层网格细胞重新锚定到新参与对象的位置空间。这种转移到一个新的对象空间是必要的，以表示两个对象之间的位移，如标志和杯子。不断地在我们周围的物体之间转移注意力是正常的。对于每一个新参与的对象，皮质网格细胞在新对象的空间中重新锚定，而位移细胞表示新对象相对于先前参与的对象的位置。