On Intelligence 笔记：皮层是如何工作的

最新推荐文章于 2024-09-04 14:31:41 发布

DayLight233

最新推荐文章于 2024-09-04 14:31:41 发布

阅读量385

点赞数

文章标签：人工智能机器学习

原文链接：https://numenta.com/resources/on-intelligence/

版权

对应原书 100-107
本文主要是对书中相应部分的翻译，对其中的部分内容作了修改使其更易于理解。在文中对相关概念查找了更多其他资料做补充。

第一节

有了这三个回路——向皮层层次上升的汇聚模式，向皮层层次下降的发散模式，以及通过丘脑的延迟反馈——我们可以开始看到皮层的某个区域是如何执行它所需要的功能的。我们想知道的是:

大脑皮层的某个区域如何对输入信息进行分类(就像水桶一样)?
它如何学习一系列的模式(比如旋律的音程，或者一张脸的“眼睛鼻子眼睛”)?
它如何形成一个对于一个序列的恒定的模式或“名称”?
它如何做出具体的预测(在正确的时间与火车相遇，或预测旋律中的特定音符)?

让我们先假设大脑皮层的这些列就像我们用来分类彩色纸输入的桶。每一列代表一个桶的标签。每一列的第4层细胞接收来自它下面几个区域的输入纤维，如果它们有正确的输入组合，就会触发。当第4层的细胞触发时，它是“投票”输入符合它的标签。就像在纸张分类的类比中，输入可能是模糊的，所以输入可能有几列匹配。我们希望大脑皮层决定一种解释：纸不是红色就是橙色，但不是两种都是。具有强输入的列应该能够防止其他列被触发。

大脑中有这样的抑制细胞。它们强烈抑制大脑皮层附近的其他神经元，有效地让一个赢家获胜。这些抑制细胞只影响柱周围的区域。所以即使有很多的抑制作用，一个区域的很多柱仍然可以同时活动。(在真实的大脑中，没有任何东西是由单个神经元或单个列来表示的)。为了更容易理解，可以假设某个地区只选择一个赢家列。但在您的脑海中，请记住许多列将同时处于活动状态。大脑皮层的某个区域用来对输入信息进行分类的实际过程及其学习方式是复杂的，而且还没有被很好地理解。我不想把这些问题拖到你身上。相反，我想假设我们的大脑皮层区域把输入分类为在一组列中的活动。然后我们可以专注于序列的形成和序列的名称。

我们的大脑皮层是如何存储这些分类模式的序列的?我已经提出了这个问题的答案，但现在我将深入研究更多的细节。假设您是一列细胞，来自较低区域的输入导致您的第4层细胞之一触发。你很高兴，你的第4层细胞导致第2层、第3层、第5层、第6层的细胞也开始工作。当从下面驱动时，整个列将变为活动的。你的细胞在第2层、第3层和第5层，每一层都有数千个突触。如果当你的第2层、第3层和第5层细胞激活时，其中一些突触是活跃的，那么突触就会加强。如果这种情况经常发生，那么第1层的突触就会变得足够强大，即使第4层的细胞没有激活，第2层、第3层和第5层的细胞也会激活，这意味着在没有接收到来自大脑皮层较低区域的信息的情况下，柱状结构的某些部分也会变得活跃。这样，第2层、第3层和第5层的细胞就可以根据第1层的模式“预测”什么时候该激活。在学习之前，只有在第4层细胞的驱动下，列才能被激活。学习之后，通过记忆，该列可以部分激活。当一个列通过第1层的突触变得活跃时，它期待从下面被驱动。这就是预测。如果这个“列”能说话，它就会说，“当我在过去活跃的时候，我的第一层突触的这一组就活跃了。所以当我再次看到这个场景时，我就会提前激活。”

回想一下，第1层的一半输入来自于皮层相邻的列和区域的第5层细胞。这些信息代表了之前发生的事情。它表示在列变为活动之前处于活动状态的列。它代表了旋律中先前的音程，或我最后看到的东西，或我最后感觉到的东西，或我正在听的演讲中先前的音素。如果这些模式在一段时间内出现的顺序是一致的，那么这些列将学习该顺序。他们将按适当的顺序一个接一个地激活。

第1层的输入的另一半来自层次较高区域的第6层细胞。这个信息比较固定。它表示您当前正在经历的序列的名称。如果你的列是音乐音程，它就是旋律的名字。如果你的列是音素，那么你听到的就是口语。如果你的“列”是口语，那么上面的信号就是你正在背诵的演讲。因此，第1层中的信息既表示序列的名称，也表示序列中的最后一项。通过这种方式，可以在许多不同的序列之间共享特定的列，而不会造成混淆。列学会在正确的上下文中以正确的顺序激活。

在继续之前，我需要指出的是，第一层的突触并不是参与学习某一列何时应该激活的唯一突触。如前所述，细胞从周围的许多列接收输入，并将输入发送到这些列。回想一下，超过90%的突触来自柱外的细胞，而这些突触大多不在第一层。例如，第2层、第3层和第5层的细胞在第1层有数千个突触，但在它们自己的层中也有数千个突触。总的思路是，细胞需要任何信息来帮助它们预测什么时候它们将从下面被驱动。通常，附近列中的活动具有很强的相关性，因此我们可以看到许多与附近列的直接联系。例如，如果一行在您的视野中移动，它将激活连续的列。然而，通常情况下，预测一个列的活动所需要的信息更加全局化，而这正是第一层突触发挥作用的地方。如果你是一个细胞或一个柱，你不会知道这些突触意味着什么，你只知道它们帮助你预测

第二节

现在让我们考虑一个问题:大脑皮层的一个区域是如何形成一个学习序列的名称的。再一次，想象你是一个皮层区域。您的活动列随着每个新输入而变化。您已经成功地学习了列激活的顺序，这意味着列中的一些细胞在来自较低区域的输入到达之前就激活了。你在向大脑皮层的层次更高的区域传递什么信息?我们之前看到过，你的第2层和第3层细胞将它们的轴突发送到下一个更高的区域。这些细胞的活动是向高级区域的输入。但这是个问题。为了让层次结构工作，您必须在学习序列期间转发一个常量模式;您必须传递序列的名称，而不是细节。在学习序列之前，您可以传递细节，但是在学习序列并能够成功预测哪些列将是活动的之后，您应该只传递一个常量模式。但是，我还没有向您展示这样做的方法。就目前的情况来看，不管你能否预测，你都会把每一个变化的模式传递下去。当每一列激活时，它的第2层和第3层细胞将向层次结构发送一个新的信号。在学习序列的过程中，大脑皮层需要某种方法来保持下一个区域的输入恒定。当一个列预测它的活动时，我们需要一些方法来关闭第二层和第三层细胞的输出，或者，换句话说，当列不能预测它的活动时，让这些细胞活跃起来。这是创建常量名称模式的惟一方法。

对大脑皮层的了解还不足以说明它是如何做到这一点的。我能想到几种方法。我将描述我目前最喜欢的，但请记住，概念比具体的方法更重要。创建一个常量“name”模式是该理论的一个要求。此时，我所能证明的是，命名过程存在合理的机制。

在这里插入图片描述
再次假设您是一个列，如上图所示。我们想知道，当你可以预测自己的活动时，你是如何向下一个更高的区域呈现一个恒定的模式，而当你不能预测自己的活动时，你又如何学习呈现一个变化的模式。我们首先假设在第2层和第3层中有几种类型的细胞。(除了几种类型的抑制性细胞外，许多解剖学家还在他们所谓的3a层和3b层中对细胞类型进行了区分，所以这种假设并不是没有道理的。)

我们也假设有一类细胞，叫做第二层细胞，在学习序列的过程中学会了停留。这些细胞作为一个组，表示序列的名称。只要我们的大脑皮层能够预测下一个活动的神经柱，它们就会向大脑皮层的高级区域呈现一个恒定的模式。如果我们的大脑皮层区域有一个由三种不同模式组成的学习序列，那么代表这三种模式的所有列的第二层细胞就会在这个序列中保持活跃。它们是序列的名称。

接下来，让我们假设还有另一类细胞，即第3b层细胞，当我们的列成功预测其输入时，它不会触发，但当它没有预测其活动时，它会触发。一个3b层的细胞表示一个意外的模式。当列意外激活时，它将触发。在任何学习之前，每当一个列变得活跃时，它就会触发。但是当一个柱学会预测它的活动时，3b层细胞变得安静了。总之，第2层和第3b层细胞满足我们的要求。在学习这两种细胞之前，柱状细胞都是开启和关闭的，但在训练后，第2层细胞是持续活跃的，而第3b层细胞是安静的。

这些细胞是如何学习的呢?首先，让我们考虑如何在第3b层细胞的列成功预测其活动时关闭它。假设在第3层3b细胞的上面有另一个细胞，叫第3a层细胞。这个细胞在第一层也有树突。它的唯一工作是防止3b层细胞在看到第1层的适当模式时触发。当第3a层细胞看到第1层的学习模式时，它会迅速激活抑制细胞，阻止第3b层细胞激活。当列正确地预测它的活动时，这就是阻止3b层细胞激活所需要做的全部工作。

现在考虑一个更困难的任务，即在已知的模式序列中保持第2层细胞的活性。这比较困难，因为许多不同列中的不同的第2层细胞需要一起保持活动，即使它们的个别列不活动。我是这样认为的。第二层细胞可以学习纯粹从层次较高的皮层区域驱动。它们可以优先与来自上述区域第6层细胞的轴突形成突触。因此，第2层细胞将代表来自更高区域的常量名称模式。当较高的皮层区域向下面的第一层发送一个模式时，较低区域的一组第二层细胞将变得活跃，代表序列中的所有列。因为这些第2层细胞也会投射回较高的区域，它们会形成半稳定的细胞群。(这些细胞不可能一直保持活性。它们可能以类似节奏的方式同步激活。)

它就好像更高的区域把一个旋律的名字发送到下面的第一层。该事件导致一组第2层单元格触发，每个单元格对应一个在听到旋律时将被激活的列。

第三节

我们如何预测我们从未见过的事件？我们如何在对输入的多种解释中做出选择?大脑皮层的某个区域如何根据不变记忆做出特定的预测？我之前举过几个这样的例子，比如当你只记得音符之间的间隔，火车的比喻，以及背诵葛底斯堡演说时，你就可以预测出旋律中准确的下一个音符。在这些情况下，解决这个问题的唯一方法是使用最后的特定信息将不变预测转换为特定预测。换句话说，就大脑皮层而言，我们必须把前馈信息(实际输入)和反馈信息(以不变形式的预测)结合起来。

这里有一个简单的例子。假设你的大脑皮层被告知要期待五度音程的音乐。区域的列表示所有可能的特定间隔，如C-E、C-G、D-A等。您需要决定哪些列应该是活动的。当上面的区域告诉你将会有第五层时，它会导致第2层细胞触发所有代表五度音程的列，比如C-G、D-A和E-B。代表其他音程的列的第2层中的单元格不活动。现在你必须从所有可能的五分之一列中选择一列。输入到您的区域是特定的注意事项。如果你听到的最后一个音符是D，那么所有表示包含D的音程的列，例如D- e和D- b，都有部分输入。因此，现在在第2层，我们有活动在所有列是五分之四，而在第4层，我们有部分输入到所有列表示区间涉及d的时间间隔，这两个集的交集代表我们的答案，列代表区间D-A(见图11)。
大脑皮层的某个区域如何根据不变的记忆做出特定的预测
让我用另一种想象来描述它。想象有两张纸，上面有很多小孔。在一张纸上的洞代表有活跃的第二层或第三层细胞的列，是我们的不变预测（invariant prediction）。另一张纸上的孔代表下面部分输入的列。如果你把一张纸叠在另一张纸上，有些孔会对齐，有些孔则不会。那些排成一行的孔表示我们认为应该是活动的列。

这种机制不仅能做出具体的预测，还能解决感官输入的模糊性。通常情况下，大脑皮层的输入是模糊的，就像我们在彩色纸上看到的那样，或者当你听到一个含糊不清的单词时。这种自底向上/自顶向下的匹配机制使您能够在两种或多种解释之间进行选择。一旦你决定了，你就把你的解释传达给下面的地区。

在你醒着的每时每刻，你大脑皮层的每个区域都在比较一组从上面驱动的预期列和一组从下面驱动的观察列。这两个集合的交点就是我们所感知的。如果我们有来自下面的完美输入和完美预测，那么感知列集总是包含在预测列集中。我们经常没有这样的共识。部分预测与部分输入相结合的方法解决了模糊输入问题，填补了信息缺失的部分，并在不同的视图之间进行选择。它是我们如何将预期的音高不变的音程与最后听到的音符相结合，从而预测旋律中的下一个特定音符。这是我们如何决定一幅画是一个花瓶还是两张脸。这就是我们如何分配我们的动力，去写或去说葛底斯堡演说。

最后，除了投射到较低的皮层区域外，第6层细胞还可以将它们的输出送回它们自己的柱状结构的第4层细胞。当他们这样做的时候，我们的预测就变成了输入。这就是我们做白日梦或思考时所做的事。它让我们看到自己预测的结果。我们每天都要花很多时间来计划未来，排练演讲，担心即将到来的事情。长期从事皮质建模的Stephen Grossberg称之为“折叠反馈”。我更喜欢“想象”这个词。

第四节

在我们结束本节之前，还有最后一个主题。我曾多次指出，我们所看到、听到或感觉到的东西往往高度依赖于我们自己的行动。我们看到什么取决于我们的眼睛在哪里扫视以及我们如何转动我们的头。我们的感觉取决于我们如何移动四肢和手指。我们所听到的有时取决于我们所说的和所做的。因此，为了预测我们接下来会感觉到什么，我们必须知道我们正在采取什么行动。运动行为和感觉知觉是高度相互依赖的。如果我们感觉到的下一件事很大程度上是我们自己行为的结果，我们怎么能做出预测呢?幸运的是，这个问题有一个令人惊讶的、优雅的解决方案，尽管许多细节还不清楚。

第一个令人惊讶的发现是，感知和行为几乎是一回事。就像我之前提到的，大脑皮层的大部分区域，甚至视觉区域，都参与了运动的产生。第5层细胞投射到丘脑，然后投射到第1层，它们似乎也有运动功能，因为它们同时投射到旧大脑的运动区域。因此，“刚刚发生了什么”的知识——包括感觉和运动——在第一层是可用的。第二件令人惊讶的事，也是第一件事的结果，是运动行为也必须在不变表示的层次结构中表示。您可以通过考虑以细节不变的形式来生成执行特定操作所需的动作。当motor命令沿着层次结构向下传递时，它会被转换成执行预期活动所需的复杂而详细的序列。这种情况同时发生在“运动”皮层和“感觉”皮层，这模糊了两者之间的区别。如果视觉皮层的这个区域正在感知“鼻子”，仅仅转换成“眼睛”的活动，就会产生必要的眼跳，使这个预测成为现实。从看到鼻子到看到眼睛所需的特定扫视视脸的位置而异。面部特写需要更大的扫视;较远的脸需要较小的扫视。倾斜的面需要以不同于水平面的角度进行扫视。当看到“眼睛”向V1移动时，需要的扫视的细节被确定。扫视变得越来越具体，越深入，导致扫视，使你的中央窝正中目标，或相当接近。

让我们来看另一个例子。对我来说，从我的客厅搬到我的厨房，我的大脑所要做的就是在精神上从我的客厅的不变表示转换到我的厨房的不变表示。这个开关会导致序列的复杂展开。生成的预测序列的过程中我将会看到什么,感觉,走在从客厅到厨房听到还生成序列的运动命令,让我从我的客厅走到我的厨房,我的眼睛像我这样做。预测和运动行为是紧密联系在一起的，它们的模式在大脑皮层的层次结构中上下流动。听起来很奇怪，当涉及到你自己的行为时，你的预测不仅先于感觉，它们还决定了感觉。想到要进入序列中的下一个模式，就会导致对下一步应该经历什么的级联预测。随着级联预测的展开，它会生成实现预测所需的运动指令。思考、预测和行动都是沿着大脑皮层层级向下展开的序列的一部分。

通过思考“做”，感知和运动行为的平行展开，是所谓目标导向行为的本质。目标导向的行为是机器人的圣杯。它被植入大脑皮层的结构中。当然，我们可以关闭我们的运动行为。我可以想象看到一些东西，但实际上并没有看到它;我可以想象去厨房，但实际上并没有看到它。但是想要去做某件事实际上是我们如何去做的开始。

DayLight233

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
On Intelligence 笔记：皮层是如何工作的

有了这三个回路——向皮层层次上升的汇聚模式，向皮层层次下降的发散模式，以及通过丘脑的延迟反馈——我们可以开始看到皮层的某个区域是如何执行它所需要的功能的。我们想知道的是:大脑皮层的某个区域如何对输入信息进行分类(就像水桶一样)?它如何学习一系列的模式(比如旋律的音程，或者一张脸的“眼睛鼻子眼睛”)?它如何形成一个对于一个序列的恒定的模式或“名称”?它如何做出具体的预测(在正确的时间与火车...
复制链接

扫一扫