这篇文章的核心内容是探讨人类行为和认知的“缓慢性”——即人类的整体信息处理速度为何远低于其感觉系统收集信息的速度。文章通过跨学科的研究方法,结合信息论、神经科学和行为学,揭示了这一现象背后的神经机制和可能的进化原因,并提出了未来研究的方向。
1. 研究背景
文章指出,尽管人类的感觉系统能够以每秒约10⁹比特的速度收集信息,但人类的整体行为和认知信息吞吐量却只有每秒约10比特。这一巨大的差异引发了以下问题:
-
为什么大脑的信息处理速度如此之慢?
-
为什么大脑需要数十亿个神经元来处理如此低速的信息?
-
为什么人类一次只能专注于一件事情?
2. 研究方法
文章采用了信息论的方法来量化人类行为的信息吞吐量。通过分析各种行为(如打字、说话、阅读、感知等)的信息速率,作者发现人类行为的信息速率普遍在每秒10比特左右。具体方法包括:
-
行为信息速率的测量:通过分析不同任务(如打字、阅读、感知物体等)中人类行为的熵(不确定性)和互信息(任务相关的信息)来计算信息速率。
-
神经信息容量的估计:通过分析单个神经元(如视锥细胞和视网膜神经节细胞)的信息传输能力,估计大脑不同区域的信息处理能力。
3. 实验与关键结论
文章通过多个实验和案例来支持其观点:
-
打字实验:高级打字员的打字速度约为每秒10次按键,考虑到英语的冗余性,其信息速率为每秒10比特。
-
盲解魔方实验:盲解魔方的世界纪录显示,感知阶段的信息速率为每秒约11.8比特,与打字速度相当。
-
记忆实验:在“5分钟二进制”记忆竞赛中,选手在5分钟内记忆二进制数字,其信息速率为每秒约5比特。
-
语言处理:人类语言的传输速率为每秒约39比特,但考虑到语言的冗余性,实际信息速率更低。
这些实验表明,人类在各种任务中的信息处理速度普遍较低,且感知和运动输出的信息速率相当。
4. 神经科学的解释
文章探讨了为什么大脑的信息处理速度如此之慢,提出了以下几种可能的解释:
-
神经硬件的低效性:尽管单个神经元可以传输多个比特/尖峰的信息,但大脑的整体信息处理速度仍然很低。这表明大脑可能在信息筛选和处理过程中存在某种限制。
-
串行处理与并行处理:大脑的中枢处理(内脑)是串行的,一次只能处理一个任务,而周围神经系统(外脑)则是并行的。这种差异导致了信息处理速度的瓶颈。
-
进化历史:大脑最初可能是为了控制运动而进化,因此一次只处理一个任务是合理的。这种设计可能延续到了现代人类的认知功能中。
-
复杂性瓶颈:尽管大脑有大量神经元,但似乎存在某种“注意力瓶颈”,限制了信息处理的速度。
5. 研究意义与未来方向
文章指出,理解大脑的信息处理速度对于多个领域具有重要意义,包括:
-
学习与记忆:人类大脑的信息存储能力远高于实际需要,这为研究大脑的学习和记忆机制提供了新的视角。
-
脑机接口:理解大脑的信息处理速度可以帮助设计更有效的脑机接口,例如通过语音或自然语言处理来辅助瘫痪患者。
-
人工智能:人类的认知速度限制为设计人工智能系统提供了参考,特别是在需要与人类交互的场景中。
文章最后提出了未来研究的方向,包括:
-
内外脑的交互机制:研究大脑的“外脑”(感觉和运动系统)与“内脑”(认知和决策系统)之间的信息传递机制。
-
自然条件下大脑功能的研究:通过自然任务(如快速切换的微任务)来研究大脑的动态信息处理能力。
-
进化与生态位的关系:研究不同物种的信息处理速度,以及它们如何适应各自的生态位。
文章的核心观点是,尽管人类的感觉系统能够以极高的速度收集信息,但大脑的信息处理速度却非常缓慢。这种差异可能源于大脑的进化历史、神经架构的限制以及信息处理的串行特性。理解这一现象对于揭示大脑的工作原理、设计有效的脑机接口以及发展人工智能具有重要意义。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
摘要
本文探讨了人类行为的神经谜题背后的缓慢性。人类的信息处理速度大约为10比特/秒。相比之下,我们的感觉系统收集数据的速度约为10^9比特/秒。这种数字上的巨大差异仍未得到解释,并触及大脑功能的许多基本方面:什么神经基础设定了我们生活节奏的速度限制?为什么大脑需要数十亿个神经元来处理10比特/秒的信息?为什么我们一次只能思考一件事?大脑似乎以两种不同的模式运作:“外脑”处理快速、高维的感觉和运动信号,而“内脑”则处理控制行为所需的少量比特。对于外脑中大量神经元的合理解释是存在的,但对于内脑则没有,我们提出了新的研究方向来解决这一问题。
引言
“快,想一个东西……然后我会通过问你是非问题来猜出那个东西。”“二十个问题”这个游戏几个世纪以来一直是一种思维挑战。如果问题设计得当,每个问题将揭示关于神秘事物的1比特信息。如果猜测者经常获胜,这表明思考者可以在几秒内访问大约2^20 ≈ 100万种可能的项目。因此,无约束条件下的思维速度对应于几秒内的20比特信息:速率约为每秒10比特或更低。
更广泛地说,人类行为的信息吞吐量约为10比特/秒。我们回顾了一个世纪以来涉及人类认知各个方面的测量:感知、行动或如上例中的想象。一般方法是评估一个人在给定时间内可能执行的动作范围。在此过程中,需要一个明确的标准来区分动作及其噪声变化。这种信号与噪声的区分通过香农的熵来量化,最终得出以比特/秒(bits/s)表示的信息速率(见框图)。
这种信息论方法使我们能够比较不同心理任务和过程的处理速度,同一大脑中不同神经结构之间的速度,不同物种之间的速度,以及大脑与机器之间的速度。显然,这只是表征人类体验的一个框架,但它通过比较分析提供了有价值的见解。
特别是,我们的周围神经系统能够以更高的速率从环境中吸收信息,达到千兆比特/秒的量级。这定义了一个悖论:人类行为的微小信息吞吐量与行为所基于的巨大信息输入之间存在着巨大的鸿沟。这个巨大的比率——大约1亿——在很大程度上仍未得到解释。
人类行为的信息速率
以人类打字员为例,打字员根据手写稿件打字。一位高级打字员每分钟可以打出120个单词。如果每个单词按5个字符计算,这种打字速度相当于每秒10次按键。这代表了多少比特的信息呢?人们可能会被键盘上的键数所吸引,并取其对数以得到每个字符的熵,但这是一种巨大的高估。实际上,英语具有有序的内部结构,使得字符流高度可预测。事实上,英语的熵仅为每个字符约1比特。专家打字员依赖于所有这些冗余:如果被迫输入随机字符序列,他们的速度会急剧下降。因此,我们得出结论,打字员的操作速率为
I = 2 单词/秒 × 5 字符/单词 × 1 比特/字符 = 10 比特/秒
请注意,我们忽略了按键方式的微小变化,例如按键的力度或按键的确切持续时间。这些输出的差异被认为是噪声:它们对当前任务无关紧要,很可能并非有意为之。因此,它们并不构成不同的动作,也不贡献于信息吞吐量。我们还忽略了打字员偶尔的打哈欠和眨眼。这些可以被视为行为输出的一部分,但它们是相对可预测的,最多只贡献了一个人的信息吞吐量的一小部分。
有人可能会认为,打字员受到手指速度的限制。也许如果使用为交流而进化的运动系统,比如人类的声音,信息速率会更高。为了让观众能够舒适地跟上英语教学演示,建议的叙述速度为每分钟160个单词。这确实略高于每分钟120个单词的打字速度,得出的信息速率为13比特/秒。
能否消除运动的需要?纯粹的感知速度会是多少?从“盲解魔方”这项竞技运动中可以得到一些启示。参赛者解决一个3×3的魔方,但表现分为两个部分:选手首先检查魔方几秒钟,然后在蒙眼的情况下解决它。因此,感知行为与需要运动的读出阶段被分开了。(严格来说,感知阶段也涉及几次翻转魔方和移动眼睛,但这比读出阶段的节奏要慢得多。)两个过程都被计时,最近的世界纪录是12.78秒:大约5.5秒用于检查,其余时间用于解决。由于魔方的可能排列数为4.3×10^16 ≈ 2^65,感知阶段的信息速率为约65比特/5.5秒 ≈ 11.8比特/秒。注意,盲解魔方者倾向于将总时间大致平均分配给感知和运动。(另一个例子见文献7)如果运动系统对信息吞吐量构成了严重限制,人们会期望一个非常不同的平衡。相反,感知的信息速率似乎与运动输出的速率相匹配。
一个潜在的担忧是,解魔方者需要将获取的信息存储到短期记忆中,至少持续10秒,因此信息速率可能受到这种短期存储需求的限制。很难想象一种测量感知的方法,其持续时间不超过至少几秒钟。与其缩短这段时间,我们不如要求一个更长的记忆间隔,并询问这是否改变了感知速率。
答案来自记忆运动领域。在“5分钟二进制”项目中,参赛者观看二进制数字的页面5分钟,然后在15分钟内从记忆中回忆它们。目前的世界纪录保持者正确回忆了1467位数字;记忆期间的信息速率为约5比特/秒。一个相关的项目是“速度牌”:参赛者检查一副52张随机牌的顺序,时间由他们自己决定,并且必须在牌首次出现后的5分钟内回忆起准确的顺序。2018年的世界纪录保持者在12.74秒的检查后完成了任务。由于一副牌的排列数为52! ≈ 2^226,检查期间的信息速率为约18比特/秒。总之,即使在对工作记忆的需求大幅增加(从10秒到300秒)的情况下,人类从环境中使用信息的速率仍然保持不变,与我们估计的大约10比特/秒的数值相差不超过两倍。
在附录A和表1中,我们回顾了人类行为吞吐量的其他测量结果,这些研究涵盖了过去一个世纪的大部分时间和不同的领域,从经典实验室实验到最近的电子竞技比赛。这些研究都指向了一个惊人一致的结果:人类以大约10比特/秒的信息吞吐率运行,感知和运动输出的速率似乎相当。正如上文所述,所有这些任务都涉及某种正确解决方案的标准,这使得人们可以将信号与噪声区分开来。这些范围涵盖了人类行为的许多类型,从游戏到有偿职业,但显然也遗漏了其他一些行为(如跳舞、做梦等),对于这些行为来说,定义信息吞吐量已经很困难,更不用说测量了。
行为/活动 | 时间尺度 | 信息速率(比特/秒) | 参考文献 |
---|---|---|---|
二进制数字记忆 | 5分钟 | 4.9 | [8] |
盲解魔方 | 12.78秒 | 11.8 | [5] |
选择反应实验 | 分钟 | 约5 | [10]-[12] |
英语听力理解 | 分钟-小时 | 约13 | [4] |
物体识别 | 0.5秒 | 30-50 | [13] |
实验室运动任务的最佳表现 | 约15秒 | 10-12 | [14],[15] |
英语阅读 | 分钟 | 28-45 | [16] |
17种语言的演讲 | <1分钟 | 39 | [17] |
速度牌 | 12.74秒 | 17.7 | [9] |
《星际争霸》(电子竞技运动员) | 分钟 | 10 | [18] |
《俄罗斯方块》(S级) | 分钟 | 约7 | [19] |
英语打字 | 分钟-小时 | 10 | [2],[3] |
表1:人类行为的信息速率
如何解释10比特/秒的行为吞吐量?与我们在日常生活中遇到的任何信息速率相比,这个数字小得荒谬。例如,当家庭WiFi网络速度低于100兆比特/秒时,我们会感到焦虑,因为这可能会影响我们观看Netflix节目的体验。与此同时,即使我们在观看节目的过程中保持清醒,我们的大脑也永远不会从这个巨大的比特流中提取超过10比特/秒的信息。与本文的论点更相关的是,人类行为的速度同样被大脑神经硬件的容量所压倒,正如在下一部分中详细阐述的那样。
神经系统的信息容量
从克劳德·香农创立信息论的那一刻起,神经生理学家就将这一框架应用于神经系统中的信号传递。例如,可以将单个神经元视为一个通信信道。特别是在感觉系统中,我们相当确定神经元在传递关于什么信息,即感觉刺激,这也恰好在实验者的控制之下。为了测量神经元传递了多少信息,可以按照上述行为的方法进行:(1)确定神经元在所有可能的刺激下的输出范围;(2)确定该范围中哪一部分是“噪声”与“信号”;通常这涉及重复相同的刺激多次并测量响应变化;(3)使用熵和互信息的表达式来导出信息速率(见附录B)。
例如,人眼中的视锥细胞将动态光输入转换为连续变化的膜电压。使用附录B中描述的方法,可以发现单个人类视锥细胞可以以约270比特/秒的速度传输信息。一只眼睛中有600万视锥细胞,其容量约为1.6吉比特/秒。从这个巨大的比特流中,打字员的大脑筛选出仅用于正确执行行为任务所需的10比特/秒。为了表示这种筛选程度,我们定义了一个无量纲的“筛选数”:
Si = 筛选数 = 感觉信息速率 / 行为吞吐量 ≈ 1吉比特/秒 / 10比特/秒 = 10^8
与视锥细胞不同,中枢神经系统中的大多数神经元通过动作电位进行通信。一个神经元向另一个神经元传递的信息完全取决于它们的尖峰时序。同样,可以采用信息论的方法来询问以这种方式传递了多少信息。答案是每个尖峰约2比特。这一数值在许多不同物种的神经元和广泛的放电率范围内都成立。
这个大约2比特/尖峰的数值使我们能够估计感觉处理不同阶段的信息速率。例如,眼睛的输出由100万视网膜神经节细胞的轴突组成。在强烈的刺激下,可以将它们驱动到平均50赫兹的放电率。因此,视神经的容量约为100兆比特/秒或更低。请注意,这比视锥细胞的容量小10倍。视网膜内的电路已经通过至少10倍的因子压缩了视觉信号。
视网膜神经节细胞的例子表明,当被驱动到高放电率时,单个神经元可能每秒传输数百比特的信息。在哺乳动物皮层中,神经元的平均放电率非常低,通常每秒只有几次尖峰。然而,即使在这些条件下,单个神经元也将传输约10比特/秒——相当于整个人类的信息吞吐量。
缓慢行为的悖论
重申一下:人类行为(包括运动功能、感知和认知)的速度限制为10比特/秒。与此同时,单个神经元可以以相同或更快的速率传输信息。此外,我们大脑的某些部分,例如周围感觉区域,显然处理信息的速度要快得多。
在探讨这一悖论之前,我们应该就其大小达成一致,这为答案的大小设定了预期。我们需要解释一个Si = 10^8的因素,即周围信息处理与大脑整体吞吐量之间的比率。从数值上看,这可能是大脑科学中最大的未解释数字。这个数量级为假设性解决方案设定了一个过滤器。例如,假设某个假设解释了为什么人们在一种任务条件下可以比另一种条件快两倍地做出反应。这可能足以在知名期刊上发表,但如此小的效果并不能对悖论产生任何影响。
接下来,我们应该考虑是否可以简单地否认这个悖论。对于许多人来说,声称人类的思维活动相当缓慢这一说法触动了一根敏感的神经。在这里,我们考虑了一些已经提出的反对意见。
5.1 摄影记忆呢?
人们普遍相信有些人可以通过短暂的一瞥记住一页文本的全部内容,然后像阅读内部照片一样回忆起来。不幸的是,关于摄影记忆或图像记忆的证据充其量是微弱的。如果存在这样的人,他们将在全球记忆竞赛中获得奖牌,例如“二进制数字”。然而,世界冠军仍然以每秒10比特的速度记录。
有一份科学报告在这里脱颖而出,关于一个单一的人类受试者,他可以在每只眼睛分别在不同日子呈现的单眼图像之后融合随机点立体图。每个图像有100×100像素,并且呈现了2分钟,这将需要每秒100比特的感知速率,是我们提出的速率的十倍。现在,十倍的差异在我们提出的百万倍悖论面前并不算什么,但仍有充分的理由质疑这一说法。例如,来自两只眼睛的神经信号已经在初级视觉皮层中合并。因此,受试者的大脑必须以某种方式将记忆中的图像注入到视觉系统中非常早期的神经元中,或者也许甚至将它们存储在那里。这一说法如此出人意料且具有潜在的革命性,本应引发许多后续实验。没有出现支持报告,表明这些研究并没有如预期那样进行。
关于摄影记忆的另一个流行故事涉及一位艺术家,他可以在乘坐直升机飞越城市后绘制出整个城市景观的建筑级细节。他的画作非常复杂,但并没有将每座建筑的细节画正确。即使如此,这仍然相当于每秒4比特的获取速率。假设在45分钟的直升机飞行后,艺术家在网格上绘制了1000个可识别的建筑,每个建筑有1000种可能的风格,并且所有建筑都画得正确。在这种情况下,他为绘画获取信息的速率为10^4比特/2700秒 ≈ 4比特/秒。
5.2 但我视觉场景中的丰富细节呢?
我们中的许多人觉得即使是短暂一瞥的视觉场景也充满了生动的细节。图像感觉清晰且充满色彩和细腻对比。如果所有这些细节都进入大脑,那么获取速率一定远远高于每秒10比特。
然而,这是一种错觉,技术术语称为“主观膨胀”。人们觉得即使在视野的边缘,视觉场景也是清晰且色彩丰富的,因为在正常生活中,我们只需将眼睛指向那里就可以看到生动的结构。实际上,从注视中心几度以外的地方,我们对空间和色彩细节的分辨率急剧下降,这在很大程度上是由于视网膜的神经电路。你可以通过阅读本文来确认这一点:固定眼睛注视一个字母,并询问你还能识别每边的多少个字母。另一个流行的测试是在晚餐派对上让客人闭上眼睛,然后让他们回忆他们刚刚经历的场景。这些测试表明,除了我们集中注意力的地方之外,我们感知和保留视觉信息的能力受到严重限制,甚至达到了“注意力不集中失明”的程度。
5.3 但无意识处理呢?
对低感知速率的另一种反对意见是,按定义,它只考虑了我们可以有意识地体验和访问的东西,因此我们可以谈论它们。当然,这种观点认为,每天在我们视网膜上闪烁的无数图像一定携带了大量的精细信息进入大脑。也许这些信息不能像摄影记忆那样被有意识地访问,但它们仍然存储在大脑中。
无意识处理的一个具体提议涉及视觉电路的发展。有人声称视觉系统通过暴露在数百万张自然图像中来学习自然场景的统计特性。通过突触可塑性机制,神经电路的结构对视觉体验做出反应,从而改变这些电路的后续功能。这个过程从环境中提取了多少信息?
著名的条纹饲养小猫实验可以作为例子。小猫在一个被涂成黑白竖条纹的环境中饲养。从小猫的角度来看,因为它们仍然可以摇头晃脑,所以条纹的方向被限制在大约±20度的垂直范围内。这种环境变化确实导致了视觉皮层中大脑布线的一些重组。假设小猫的大脑已经完全适应了这种视觉统计的变化。在自然世界中,所有方向在180度范围内大致均匀分布,而在新的环境中,它们被限制在40度范围内。与这种概率分布变化相关的信息量为log₂(180/40) ≈ 2比特。
通过完美地学习新的角度分布,小猫只获得了2比特的信息。同样的论证也适用于自然图像统计的其他方面:空间和时间频率的分布与均匀分布不同,但这些分布的形状可以用几个比特来描述。在这些情况下,活动依赖性的发展过程在动物的一生中只能学习到几个比特的信息。
为什么关于场景统计的信息如此有限?主要原因是它们是平移不变的:在近似程度上,自然图像的频率谱在图像的左下角与右上角是相同的。因此,没有必要在视觉场的每个点分别学习单独的统计信息,或者在视觉场的每个点指定不同的神经电路。大自然“知道”这种平移不变性,并以一种巧妙的方式利用了它:通过发明神经元细胞类型的家族,这些细胞类型在视觉场中被克隆。例如,人眼视网膜包含数百万个神经元,但它们只有大约100种类型。同一种类型的细胞在视网膜中均匀分布。同样,细胞之间的突触电路也是根据细胞类型身份来指定的。因此,通过改变一个基因,可以在视觉场内的数千个不同位置以相同的方式改变突触电路。现代图像识别系统以卷积神经网络的形式复制了这一发明,其中每一层的所有单元共享相同的卷积核,因此只需要学习几个参数。
我们的神经系统甚至在实时适应图像统计变化时也使用这种卷积技巧。例如,视网膜中的电突触可以通过神经调节剂多巴胺进行调节。因此,通过改变一个单一变量,即多巴胺的弥散浓度,可以修改整个视觉场的视觉处理。这些适应发生在几分钟的尺度上,因此再次,只需要从环境中获取少量的信息流来进行这些更新。
6 一些“每秒十比特”的含义
在未能反驳这一悖论之后,人们不得不面对人类感知、行动和认知以极其缓慢的速度进行这一事实。这一洞见涉及神经科学中的许多核心问题:从学习和记忆,到行为的进化,再到神经假肢或人工智能的设计。在这里,我们只是简单地触及其中一些含义,然后在后续部分中考虑对这一悖论的解释。
6.1 人脑中存储了多少信息?
当人们将大脑与计算机进行比较,或者考虑未来人工智能系统的需求时,这是一个流行的问题。人们普遍认为记忆存储在突触连接的强度中,也在一定程度上存储在单个神经元的属性中。因此,我们可以通过计算突触的数量(约10¹⁴)并乘以突触强度的动态范围(估计为5比特)来获得大脑容量的上限,结果是5×10¹⁴比特≈50太字节,用于指定所有突触。人们可能会想为每个神经元添加一些比特以指定其功能参数,但考虑到神经元的数量相对较少(约10¹¹),这将使估计值保持在同一数量级。这一计算假设任何连接组合都是可能的,并且会导致一个可行的大脑,因此50TB的上限也是一个巨大的高估。
另一种收紧上限的方法是考虑信息是如何进入大脑的。有两种途径:先天和后天。前者通过早期发展的生物学机制实现,主要由基因表达的动态程序控制,这一过程在每个物种成员中大致相同。这一过程的结果被编码在基因组中。人类基因组包含约3×10⁹个碱基。人类之间的差异仅在这些位点的一小部分中:只有基因组的一小部分碱基编码基因,而并非所有基因都在大脑中表达。然而,让我们慷慨地假设基因组中的所有碱基都独立控制大脑发育,每个碱基控制大脑连接的一个不同维度。这将先天部分的上限置于约6×10⁹比特或约0.8GB。同样,这一计算假设每个可能的基因组都将导致一个可行的大脑,因此它也是一个巨大的高估。
后天因素通过感觉获取的信息对大脑发育做出贡献。正如我们所见,人类在最佳状态下每秒可以从环境中感知和记忆约10比特的信息。因此,即使一个人以速度卡片冠军的感知极限24小时不间断地吸收信息,且活到100岁,他们也将获得大约3×10¹⁰比特<4GB的信息。加上基因组中的信息,这仍然可以轻松地存储在你口袋里的小型闪存驱动器中。
这里再次可以提出反对意见,认为潜意识刺激以某种方式驱动大脑的突触发育,绕过了感知,并且不受每秒10比特速率的限制。从概念上讲这是可能的,但尚未出现令人信服的提议。在前面的部分(5.3)中,我们讨论了科学记录的活动依赖性发育的案例,这些案例是由自然刺激的相关结构驱动的,发现这最多只涉及少量比特的信息。
从这一比较中得出的一个结论是,大脑中突触表示的容量(50TB)远远超过了实际需要表示的信息量(5GB),相差4个数量级。因此,有足够的空间用于存储算法,这些算法由于生物可学习规则的约束或大量冗余而效率低下。
6.2 不同物种的生活速度
人类如何仅靠每秒10比特就能生存?这里的套话式答案是,这种低速率的认知足以维持生存。更准确地说,我们的祖先选择了一个生态位,在那里世界足够缓慢,使得生存成为可能。事实上,每秒10比特的信息仅在最坏的情况下才需要,而大多数时候我们的环境变化速度要慢得多。这促成了青少年中常见的“现实已破碎”的感觉,导致他们寻求电子游戏(见附录A)中的慰藉。前几代人也不例外——他们反而寻求高速运动的刺激,比如滑雪或山地自行车。对于这些寻求刺激的人来说,日常任务感觉慢得令人难以忍受,因此将自己推向认知吞吐量的极限本身就是一种令人愉悦的体验。
在其他生态位中,例如蜗牛和蠕虫的生态位,世界变化得更慢。相关的威胁和机会变化缓慢,所需的感知和响应计算量甚至比我们的世界还要有限。偶尔,生态位会相互交叉,导致灾难性后果,例如蜗牛穿越公路。人们可能会问,是否有动物以更高的信息速率运行。候选者可能是那些在湍流中进行特技飞行的昆虫,或者在高速飞行中通过树木间隙的鸟类。
令人惊讶的是,这一领域的研究非常少。例如,果蝇的视觉系统一直是神经科学中信息论测量的试验场。然而,我们在这一领域的研究人员调查中未能找到任何尝试测量整个果蝇的信息吞吐量的研究。一些相关原始数据确实存在。例如,Theobald等人测量了被束缚飞行的果蝇在视觉环境水平旋转时产生的扭矩。通过使用Borst & Theunissen回顾的方法分析发表的时间序列,我们得出的信息速率为0.62比特/秒。请注意,这比从果蝇视觉系统中的单个神经元“H1”获得的关于这种刺激的信息速率小100倍。当然,Theobald等人的扭矩测量仅适用于飞行控制的一个维度,自由移动的昆虫可能运行得更高效。尽管如此,似乎可以合理推测,昆虫也存在低行为吞吐量与高单神经元信息速率之间的悖论。
对不同物种的整体行为吞吐量进行严肃研究可能会带来启发。人们普遍认为,收集信息具有适应性价值。反之,信息处理会带来代谢负荷,从而产生适应性成本。然而,不同的谱系是如何管理这种权衡的呢?每个物种是否都在运行一个刚好足以维持生存的吞吐量?这如何依赖于它们的生态位?“存在速度”是否实际上促成了不同生态位的物种形成?
一个以更高速率运行的物种是机器。机器人被允许参加《星际争霸》锦标赛,使用相同的感觉和运动接口与人类对战,但只有在被人为限制到人类可以维持的动作速率时才可以。很明显,机器将在人类目前执行的任何任务中胜出,因为它们的计算能力每两年翻一番。因此,关于自动驾驶汽车是否将在交通中达到人类水平性能的讨论已经显得有些过时:道路、桥梁和交叉路口都是为每秒处理10比特的生物设计的。当最后一名人类司机最终退休时,我们可以更新基础设施以适应每秒处理千比特的机器。到那时,人类将被建议远离这些生态位,就像蜗牛应该避开公路一样。
6.3 马斯克错觉
许多人认为他们的内心生活比他们能够实时通过嘴巴或其他方式表达的任何东西都要丰富得多。可以将这种错觉视为主观膨胀(见5.2)的一种版本,这种版本超出了视觉感知的范围:因为我们可以在下一秒内从事2¹⁰种可能的行动或想法中的任何一种,所以感觉就好像我们可以同时执行所有这些行动一样。然而,在实践中,它们是按顺序发生的。
在大多数情况下,这是一种无害的错觉。然而,当它与埃隆·马斯克的巨大财富相结合时,这种信念会导致实际后果。马斯克决定对此采取行动,并创建一个直接连接他的大脑和计算机的接口,以不受限制的速度进行通信:“从长期存在的角度来看,这就是Neuralink的目的,创建一个高带宽的大脑接口,使我们能够与人工智能共生,”他说。“因为存在一个带宽问题。你不能通过手指来交流。这太慢了。”
根据本文回顾的关于人类认知速率的研究,我们预测马斯克的大脑将以大约每秒10比特的速度与计算机通信。与其使用Neuralink电极束,马斯克还不如使用电话,其数据速率被设计为与人类语言相匹配,而人类语言又与感知和认知的速度相匹配。
6.4 脑机接口
类似的论点也适用于旨在帮助感觉受损或运动控制受损的患者的脑机接口(BCI)。例如,在某些形式的失明中,视网膜的感光细胞死亡,但视网膜神经节细胞和视神经纤维仍然完好。一种恢复视力的方法是在眼睛中植入电极阵列,并直接用来自视频摄像机的信号刺激那里的神经节细胞。当然,这需要将原始图像信息传输到周围视觉系统,正如上文所述,那里的数据速率是每秒千兆比特。尽管出于善意,但这种方法一直未能成功:经过数十年的努力,所有植入的患者仍然处于法定失明状态。支持这一方法的主要公司已经倒闭,他们的患者被遗弃,眼中还残留着废弃的硬件。
与此同时,我们知道人类从未从视觉场景中提取超过每秒10比特的信息。因此,人们可以只向用户传达视觉处理的重要结果,例如场景中物体和人的身份和位置。这可以通过自然语言轻松实现:计算机将视觉场景翻译成语音,并根据用户的需求实时向用户叙述。这种设备早在2018年就已经实用,而计算机视觉和自然语言处理的最新发展正在使盲人增强现实应用程序更加强大。
在运动输出方面,已经开发出旨在恢复瘫痪患者部分活动能力的神经假肢。为了弥合大脑和肌肉之间的差距,可以在运动皮层或前运动皮层的某个区域植入一个100电极阵列,记录那里的神经元尖峰序列,并从这些信号中解码出用户的预期运动。结果被转换为机器人或外骨骼的命令。这些系统已经展示出了一些有趣的能力,例如,最近的一个基准设置的BCI可以解码预期的手写速度达到每分钟90个英文字母,即1.5比特/秒。语音BCI可以解码预期的语音,速度高达每分钟62个单词,是打字员速度的一半。这些设备可以极大地造福那些患有肌萎缩侧索硬化症(ALS)和帕金森病等疾病的人,他们与言语产生作斗争。
然而,大多数瘫痪患者能够听到和说话,对于这些患者来说,语言提供了一个更简单的脑机接口。受试者可以通过简单地向机器口述文本来进行书写。她可以通过少数几个高级语音命令来移动她的外骨骼。如果机器人能够通过预测用户最可能的请求来“思考”,这种通信将只需要几个单词(“嘿Siri,喝啤酒”),留下大部分语言通道用于其他用途。对于感觉和运动BCI来说,一个重要的原则是,人们真正需要向大脑和从大脑传递的只是一些比特/秒的信息,而这些信息通常可以通过不需要在用户的头部钻孔的接口来传递。
7 认知速度的限制因素
在这里,我们考虑了一些已经提出的关于两个核心问题的解释:为什么人类认知如此缓慢?以及为什么它需要如此多的神经元?
7.1 低效的神经硬件
一个经常被引用的论点是,神经元是信息处理的低效设备,因此大自然需要使用大量的神经元来完成即使是简单的操作。特别是,单个神经元——与晶体管不同——容易受到随机生化噪声的影响,因此也许需要平均许多神经元才能获得可靠的信号。此外,也许大脑中包含了大量的冗余,有许多本质上相同的神经元群体,以防止因衰老或损伤导致的神经元丢失。这两种解释似乎都不太合理。
关于“嘈杂的神经元”,上文回顾的分析(第4节)直接解决了这一点,并表明单个神经元可以传输关于其树突输入的几个比特/尖峰的信息。某些不可减少的噪声源——例如离子通道的热涨落或囊泡融合事件——可能确实限制了信息传输的速率,但单个神经元的精度仍然令人印象深刻。单个视神经纤维可以以1毫秒的精度可靠地信号其偏好的视觉特征在视觉刺激中的到达。即使在灵长类动物皮层深处,单个神经元也能像整个猴子一样精确地区分两个视觉刺激。曾经被认为是群体水平上不可减少的噪声,实际上可能是关于变量或输入的可靠信号,这些变量或输入是实验者无法控制的,例如猴子头上的瘙痒。
关于冗余的问题,几乎没有证据表明存在大量本质上相同的神经元。例如,在果蝇中,许多神经元类型只存在两份,每侧大脑各一份。有人可能会说,果蝇是廉价且短命的,因此大自然简单地复制了整个生物体以确保稳健性。然而,这一原则甚至适用于像我们这样的大型动物。在灵长类动物视网膜中,视觉场的每个点都只被每种细胞类型的一个神经元覆盖,几乎没有重叠。在视觉皮层中,一个小中风可以消除视觉场中一个部分的视觉。显然,对于最常见的大脑损伤形式之一,没有内置的冗余。
7.2 并行处理与串行处理
周围和中枢信息速率之间的巨大差距在很大程度上源于并行处理和串行处理之间的差异。例如,周围视觉系统以大规模并行的方式进行图像处理。视网膜产生100万输出信号,每个信号都是对视觉图像的局部计算的结果。随后,初级视觉皮层接手,使用一组并行的10,000个模块,称为“超柱体”。这些超柱体覆盖了皮层表面约0.5平方毫米的区域,每个超柱体包含约100,000个神经元,并为视觉场的一个小块展开了一组完整的特征描述。
相比之下,中枢处理似乎是严格串行的:当面临两个竞争的任务时,个体在能够执行第二个任务之前,总会遇到一个“心理不应期”。即使在不需要任何运动输出的任务中,例如思考,我们也只能一次追求一个思路。
有助于想象事情可能的不同之处。例如,人类认知的一个著名成就是“鸡尾酒会效应”,即我们能够在房间里混乱的听觉混合中提取一个对话流,并跟随那个说话者的一系列话语。但我们为什么只关注一个对话,而不是并行地跟踪所有对话呢?当然,一百件八卦比一件更有用!我们的周围听觉系统以并行的方式运行,例如同时处理不同的频率通道,或者计算各种双耳时间延迟。然而,选择一个说话者的过程发生在相对早期的阶段,甚至在听觉流的任何单词分割之前。为什么并行处理在听觉的有趣内容方面必须结束呢?从这个角度来看,我们需要专注于一个对话,这是一个可悲的缺陷,而不是一个优点。
另一个有用的视角来自竞技游戏的世界。国际象棋选手在决定下一步棋时,至少部分是基于计划。他们考虑各种选项,沿着这个方向走几步,然后评估结果位置。为什么我们不能同时并行评估这些可能的轨迹呢?鉴于国际象棋比赛的时间限制,具有这种能力的选手将获得强大的优势。然而,国际象棋心理学非常清楚地表明,即使是特级大师也一次只考虑一个可能的走法。
因此,我们的悖论的很大一部分归结为这个问题:为什么认知被限制为一次只处理一个任务,而不是同时追求许多线索——可能有数千到数百万个?
7.3 进化历史
所有具有神经系统的生命形式都是会移动的生物。因此,长期以来一直有人认为,大脑的主要目的是控制运动。在早期动物进化中,一个简单的神经系统可能用于引导其所有者寻找食物或远离捕食者。这种原始的海洋生物可能在其表面有感觉神经元,通过它可以检测气味梯度。一个中间神经元回路将这些信息结合起来,最终驱动肌肉,使动物朝着期望的方向移动。在今天仍然存活的谱系中,人们仍然可以认识到大脑的核心部分是围绕嗅觉导航轴组织的。
如果通过气味梯度导航确实是存在的最初目的,那么我们可以理解为什么大脑一次只执行一个这样的任务。毕竟,这个主体只在一个地方,它只能在那个地方感知环境,并且必须就执行哪种运动做出决定。没有必要,甚至没有机会同时处理多条通往食物的路径,因为只有一条路径对应于当前的现实。因此,认知架构被设计为处理那一个问题,这个问题在空间和时间上都是局部的。
人类思维可以被视为在抽象概念空间中的一种导航形式。它就像执行运动而不激活肌肉一样。例如,长期以来被认为用于运动控制的小脑,有一些区域专门用于认知。这些区域与前额叶皮层相互作用,而不是运动皮层。
另一个关于空间导航优先性的线索来自记忆运动员的研究。面对存储长序列项目的抽象任务时,这些表演者通常会想象一个导航叙事——比如在熟悉的社区中散步——并将要记忆的项目插入到沿途的各个位置。在任务的回忆阶段,他们重新进入那个“记忆宫殿”,并在沿途“看到”这些项目。显然,这些精心设计的空间表征是一种巧妙的技巧,将记忆二进制数字的任务适应到我们自然的认知架构中。
在这个论点中,人类思维已经接管了最初为水母设计的用于在海洋中跟随腐肉气味的大脑架构。因此,我们的认知继承了每次只执行一个思维过程的约束。当然,这仍然留下了这个问题:这种约束是如何体现在神经架构中的。
7.4 复杂性瓶颈
心理学对这一主题的处理已经使用了许多隐喻来描述人类认知的串行性质,例如“单通道操作”“注意力瓶颈”和“有限的处理资源”。这些叙述共享一个共同框架:感觉系统以高维度信号和许多并行路径收集信息。经过大量的过滤和减少后,这些信号必须竞争某种中枢神经资源,在那里目标、情感、记忆和感觉数据被组合成低维度的决策。这个中枢神经资源只能按顺序执行其功能,这限制了低吞吐量。但这些并不是解释,除非指定了限制性神经资源的身份,到目前为止还没有任何令人信服的建议。
与注意力瓶颈相关的认知功能类型似乎对神经硬件的要求并不高。我们从神经回路的明确模拟中知道这一点。例如,Wang构建了一个决策制定的现实回路模型,该模型复制了在猕猴的感知心理物理实验中观察到的许多现象。该回路包含2000个积分-放电神经元,没有理由认为这是一个下限。数百个这样的决策制定模块可以放入皮层的仅一平方毫米中。
一个更具挑战性的认知任务是图像识别。一个名为AlexNet的神经网络模型被训练用于将大约100万张照片分类到1000个对象类别中。这意味着从具有120万比特的图像中提取10比特。这个网络使用了650,000个神经元,相当于皮层的仅几平方毫米。同样,它并不是为了最小化单元数量而设计的。很难看出为什么我们不应该并行运行许多这样的网络,而不是一个单一的中枢路径用于图像识别。
另一个有用的参考点是:果蝇的神经元少于200,000个。不知何故,这足以完成所有复杂的操作,包括视觉控制的特技飞行、步行或飞行中的嗅觉导航、社会交流、交配和攻击等。人类前额叶皮层本身包含足够运行5,000只果蝇的神经硬件。为什么它不能同时实现几个任务呢?“限制性神经资源”是什么?
似乎我们需要进一步阐述这些更认知的大脑区域的功能模型。目前的理解与可用的巨大处理资源并不相符,我们还没有看到任何关于什么会创建一个神经瓶颈的可行建议,这个瓶颈迫使单线操作。我们在最后一节中进一步讨论了这一困境。
8 外脑与内脑
周围处理和中枢认知之间的差异表明大脑以两种不同的模式运作:“外脑”通过感觉输入和运动输出与外部世界紧密相连。这是一个高维度的领域:数百万个感觉感受器和肌肉纤维,以及极高的信息速率。另一方面,“内脑”则在一个显著减少的数据流上运作,过滤出在任何时刻对行为真正重要的那几个比特。内脑的挑战是将动物的目标与当前来自世界的信息以及之前的记忆结合起来,做出决策并触发新的动作。信息速率非常低,但处理必须保持灵活,因为上下文和目标可能在瞬间发生变化。关于内脑和外脑之间关系的许多有趣的研究问题出现了。
首先,内脑和外脑如何通信?缓慢的内脑聆听来自外脑的感觉冲击似乎像是“从胡佛大坝喝水”。胡佛大坝的水流速度约为人类饮水速度的10^8倍,这与外脑与内脑之间的信息速率比(方程2)相同。假设匹配是在多个步骤中完成的,沿着某个信息速率的渐进连续体。例如,在视网膜的输出处,图像信息已经被减少了10倍或更多,只剩下对下游处理有用的图像特征。鉴于筛选数(方程2)如此之大,还有许多视觉压缩的对数单位有待理解。
视网膜直接投射到上丘(SC,也称为视顶盖),上丘被认为是一个进一步的瓶颈。上丘上层的神经元具有与视网膜类似的精细感受野。相比之下,上丘下层代表预运动信号,反映了动物的行为决策。这些包括猴子的扫视眼动、猫头鹰头部的重新定位,或者啮齿动物对新物体的接近与回避。因此,似乎上丘将大规模并行和高维度的感觉输入提炼成一个适合行动的目标地图。上丘的电路机制正在逐渐被揭示。最近的研究表明,上丘还参与了不涉及明显运动的现象,例如注意力。也许它有助于形成一个自下而上的“显著性地图”,最终指导认知中的注意力瓶颈。
其次,神经功能在内外脑界面两侧的原则是什么?进一步扩展水流类比:胡佛大坝涡轮机的设计依赖于与啤酒瓶设计完全不同的工程原理。鉴于性能差异巨大,没有人会考虑用相同的材料来制造它们。然而,大脑似乎在整个过程中依赖于相同的材料:神经元、突触和胶质细胞。大脑皮层被吹捧为快速并行感觉处理(例如视觉皮层)和缓慢串行认知(例如前额叶皮层)的基质。非常相似的皮层回路似乎参与了这两种模式。是否我们错过了大脑设计中将内外脑功能区分开来的某些原则?
比较内外脑分界线两侧的研究报告可能会是一个挑战,因为从业者倾向于基于完全不同的假设进行操作。在感觉区域,传统认为“每一个尖峰都很神圣”,因为每个神经元都有自己的感受野,并且已知单个尖峰可以传递关于刺激的几个比特的信息。例如,视网膜有100万输出纤维,每个纤维都有自己的视觉感受野。这些信号被传输到初级视觉皮层,几乎没有损失,因此可以合理地认为初级视觉皮层的神经活动维度为100万。
相比之下,更接近行为输出的研究人员,例如在前额叶皮层或运动皮层工作的研究人员,通常很乐意将数百万个神经元的活动简化为仅两三个“潜在维度”。典型的发现是,神经元群体向量在一个低维度流形上移动,遵循简单的动力学。我们在这里看到的是,内外脑信息速率的悖论性对比转化为神经活动维度的同样鲜明的对比。我们是否应该相信,初级视觉皮层中的10亿个神经元扩展了许多通道的视觉处理,分布在10,000个并行模块中,而前额叶皮层中的10亿个神经元只处理与当前手头任务相关的几个慢变量,如规则和价值?似乎很难接受两个具有明显相似细胞类型和架构的皮层区域(忽略微小差异)会以如此截然不同的方式运作。
或者,观察到的维度差异可能是实验设计的产物。大多数关于内脑现象的研究涉及非常低复杂度的实验任务,例如老鼠在两个相同刺激之间反复进行二元选择,或者猴子沿着几个可能的方向移动操纵杆。显然,得到的神经表征不会比动物所做的更复杂,特别是如果在多次试验中取平均值的话。在这些条件下,不可避免地会发现某个低维度流形可以解释大部分神经动力学。然而,现实生活中的行为并非如此简单。例如,速度牌玩家在洗牌过程中,每张牌的图像进入视野并触发一轮图像识别。这些插曲与短期记忆中的存储交替进行,随后是更新内部叙事或记忆宫殿以容纳新牌,然后又是另一次扫视。在对话中,我们在倾听和说话之间快速切换,有时还会插入思考的时刻。当开车时,我们检查挡风玻璃、仪表盘、后视镜和侧视镜,并在完全不同的模式下处理结果,比如估计与道路边缘的距离与阅读高速公路标志。泡茶的行为需要45个不同的短暂子任务。因此,我们在任何一天都会执行数千个不同的“微任务”,在这些微任务之间快速切换,就像我们能够快速扫视一样。每个微任务都依赖于实时反馈,要求在亚秒时间框架内筛选感觉输入并扩展为运动输出。灵活配置和控制所有这些数据流似乎对我们的认知功能至关重要。也许相关的路由机制解释了内脑中的数十亿个神经元?
在这种背景下,研究内脑在自然条件下控制快速序列的不同微任务将是有益的。如果没有针对内脑专长的实验设计,我们可能会完全错过发现其基本机制的机会。想象一个反事实的历史,在这个历史中,我们对初级视觉皮层(V1)的理解纯粹基于低维度刺激:“我们训练了一只猕猴在观看一个大旋转螺旋桨时保持注视,该螺旋桨会周期性地反转方向。在记录了数千个V1神经元的活动后,我们采用了降维方法。幸运的是,大部分群体活动被两个主成分捕获。在这些降低的维度中,群体向量具有旋转动力学。最后,我们从神经轨迹的旋转中解码了螺旋桨的旋转方向。经过三年的同行评审,论文在高影响力期刊上发表。”
鉴于我们今天所知道的,这些假设性的结果与视觉皮层的实际功能没有丝毫关联。只有通过使用精细的高维度刺激和单神经元分析,研究人员才揭示了感受野的高分辨率结构、它们的排列功能解剖学以及V1中的回路机制。回到前额叶皮层——它包含的神经元数量与V1大致相同——我们可能错过了类似的精细组织。是否可能在前额叶皮层中有数千个小模块,每个模块都专门用于一个特定的微任务,就像V1中的超柱体专门用于视觉场的一个小块一样?这非常具有推测性,但唯一解决我们无知的方法是进行新的实验类型。
总之,我们有一种感觉,通过探索内外脑之间的巨大对比,可以发现对大脑功能的全球理解的重大发现。我们需要调和外脑的“高维度微回路”观点与其最终低速率的信息产品之间的关系。反之,我们可能需要对内脑采用更高维度的观点,以解释那里发生的计算,以组织行为。