人脑为何能够快速学习新知识? 用AI的视角来分析

来源:混沌巡洋舰

相比机器,人脑擅长快速的跨任务学习和泛化推理, 或者说叫做卓越的元学习能力。我们说人类站立在这个迅速变化的危险世界面前,快速适应新任务的元学习能力事关生死。这种能力是目前的深度学习人工智能所完全不具备的。

元学习概念解析:机器学习围绕一个具体的任务展开, 然而生物体及其一生, 学习的永远不只是一个任务。与之相对应的叫做元学习, 元学习旨在掌握一种学习的能力, 使得智能体可以掌握很多任务。

这种伟大的能力建立的基础是什么呢?深入大脑,我认为可以分为以下几方面:

1, 可以灵活的切换认知模式, 选择如何选择, 决策如何决策。

2, 大量先天可以使用的inductive bias(先验,归纳偏置) , 使用贝叶斯推理框架后可以结合最新证据迅速匹配最新任务或环境的模型。相比AI单纯做梯度下降,这个方法要快速有效很多。

3, 强大的抽象/表征能力 。抽象之后,概念,以及概念与概念之间的结构关系能够支撑具体任务的学习

4, 强大的层级组合能力,迅速将已有的技能组合成新技能。

5, 因果

6, 意识

我们一个个来看看:

1. 自由的切换认知模式

Doing more with less: meta-reasoning and meta-learning in humans and machines www.sciencedirect.com

Griffiths, Thomas L., et al. "Doing more with less: meta-reasoning and meta-learning in humans and machines."Current Opinion in Behavioral Sciences29 (2019): 24-30.

人的元认知能力,被被称为一种能够根据所具有的计算资源来灵活选择认知系统的能力。比如我们熟知的系统1和系统2,一个负责直觉有关的决策,一个负责更加理性更加逻辑的决策。这种选择的本质是根据现有的认知资源来计算进一步计算需要的成本是否可以cover收益来看是否切换认知模式。就好比当我们在危急时刻或者大脑已经十分疲惫,都倾向于用直觉思考,只有在认知有盈余的时候才会进入更深层的思考状态。这也可以让我们反思我们所经常犯的错误,也就是自己匆忙因为本能做的决定事后后悔。你会发现当你经常处于认知资源匮乏的状态,就会经常犯错误。人的这种切换决策,学习等相关的认知模式的能力,是快速适应不同环境的一个基础。

我们可以如下的计算图表示这个计算过程,我们的大脑一边进行C0,C1,C2..一个序列的计算, 用以更新我们的认知B0, B1, B2, 另一方面,计算每个计算步骤的成本收益,当这个计算的成本大于收益,就停下来。这就是所谓的有限理性,不要冥思苦想,对一个问题适可而止交给上帝。这种浅度或深度认知模式的切换是适应复杂多变环境的基础,让我们虽然可以创造最伟大的文明,但是在被老虎追击的时候不至于陷入过度思考,最终鲁棒性而不是最优化才是长时间不被淘汰的关键。

那么有没有无限理性呢?你也可以假定一个超级智商的Lucy可以做到的是建立一个无穷深度的计算图,站在一个制高点上,观测每个理性层次上的自己往下游戏会得到一个什么样的结局, 最终避开所有可能的坑,但是这样的人是不可能存在的,除非她真的获取了这个星球所有的计算资源,并且有无限的计算速度。

2. Inductive bias(先验假设,归纳偏置)

我们来一个一个看这些点。与人工神经网络相比,生物神经网络一个显著的特征是自发活动非常频繁。这些自发活动表明,人脑在没有外界输入的时候, 也在自发的演绎着自己的“主旋律”。与其认为这些活动是一些无意义的发放, 更加多的生物实验基础指出的是, 这些活动反应了某种大脑的对世界或任务的”先验假设”,犹如一些认知的模板。心理学家认为人脑中大部分的意识或想法都在意识之下 ,我们是看不到的, 或许也有一定道理 ,本质上,这些想法就如同不同先验组成的假设空间, 最终能够胜出进入到我们的决策区间的仅仅是极少的一部分。不同的先验可能来自于进化,也可能来自于早期学习。不同种族的人有着深层相通的语法结构,或者类似的谚语,都反应了这些潜在于大脑内部的原始先验,不禁让人想到荣格的集体无意识。

这一点也在被机器学习界所认知:

Meta-learning of Sequential Strategies

Ortega, Pedro A., et al. "Meta-learning of sequential strategies."arXiv preprint arXiv:1905.03030(2019).

这篇文章从通用的序列建模的角度描述了不同的先验假设结合贝叶斯框架如何构成了序列学习的通用方法.

首先,元学习的本质就是如何高效的从多个任务(环境)的混合数据里获取供不同任务使用的inductive bias。所有的元学习方法,都可以看做是如何从数据中获取这种最具一般性的先验假设(模板)。

一个序列预测问题

某个先验下可能的答案,但是它们只代表所有可能中的一种

常见的元学习方法Mamal, 从不同任务的混合数据中学习一个恰当的初始参数,可以看作是学习一个离每个具体任务都不远的先验

当然, 以人类日常任务的多样性, 和环境的复杂多变,这些先验模板一定不是一成不变,甚至有可能互相矛盾。我们经常纠结,且时时处于矛盾之中,就是反应了这个事实。事实上,我们大脑处理不同的先验假设有两个基本的原则:

A Epicurus’ principle:在认知资源允许的情况下, 我们保持尽可能多的假设。减少某些假设意味着对应未知世界的风险增加。

B Occam’s principle: 当不同的假设均可解释一个事实, 那么我们尽可能给简单的假设赋予更多的权重。这一条被称为阴谋论绞杀者。

在此基础上有了这些不同的假设,大脑执行的一个基本的工作是karl Fristion所说的预测编码,每时每刻,大脑都在尽可能的生成预测下一刻的输入变换(视觉,听觉,触觉),根据上面所说的,我们所做的预测不是凭空而来,而是根据大脑里的先验假设空间进行修正, 减少一些不符合事实的假设的概率, 而增加那些符合事实的假设,这个过程对于大脑就像水往低处流一样自然。在这种预测力的驱动下, 这个修正过程是快速的,准确的,我们会很快得到最贴合真实的模板或者其组合,远比重新学习新的世界模型要快的多。也就是说,我们看到的未来是过去所见的组合,阳光之下并无新事。这一点对于这个迅速变换且危险的世界比缓慢的梯度下降学习靠谱的多。

这篇文章指出一个可靠的具有类似智能的系统需要 :1)能够在大量(来自不同任务或环境下的)序列数据的预测中习得一组先验假设。2)可以在不同任务间快速的调整后验。

那么这样一个系统的神经基础是什么呢?先验是怎么表达的?更新又是怎么回事?目前这都是很前沿的内容。刚刚说的第三点部分回答了这个问题:

3. 强大的抽象/表征能力 。

抽象之后, 概念,以及概念与概念之间的结构关系能够支撑具体任务的学习 。

世界是复杂的,大脑的神经元再多, 表达能力都有限。那么,如何用有限的神经资源表达无限的假设?抽象,就是必经之路。经过一定量的抽象, 很多看似不同的事物就归结到一个东西上,所需要表达的假设就大大减少。

抽象可以看做分成两层, 一层是如何从具体感知中获得符号。符号对应某种不变性,比如一个人A的脸可以有不同的侧面, 不同的光影效果, 但是最终可以抽象成为一个符号-就是A。或者一个地点在不同的时间角度看场景都不一样,但是你走的多了,就理解那是一个地点而已。这是当下的人工神经网络,尤其是CNN非常擅长做的事情。符号和概念息息相通, 某种程度能从感知信息里抽取符号,就是具有概念学习的能力。

不同人脸侧面对应同一个人

而另一层较少被提及的抽象就是对某种结构性知识的抽象,或者是说有了符号后,对符号之间的关系的抽象,结构的抽象。比如说刚刚说的人脸, 如果有了不同人的脸,那么我们可能会把同一人种,性别放到一个区域,而不同人种,性别放在不同区域。或者刚刚说的地点的抽象, 对于不同的地点, 我们可能会把近的能够直接到达的地点放在能够直接联通的区域, 远的不相通的地点放在较远区域。仔细看你会发现对于人脸和地点,我的描述是相似的,都是一种类似空间关系。这种关系本身就是我说的另一类抽象, 对关系或者结构性知识的抽象,在这个层次上,符号是什么本身已经不重要,重要的是符号和符号之间的关系。

概念和概念相互关联的结构性知识

我们可以看做所有的关系都可以看做某种图(graph)来表达,图里的节点可以对应可以替代的概念(一个占位符),而具体图里的每条边是什么,或者说距离如何定义,又可以用一个新的自由度表达,也就是我们常说的度量(metric), 我们日常生活中的欧式空间,无非是有关metric假设的一种形式。graph和metric构成我们需要的多种多样的结构性知识,你可以想象出现过在你大脑中的结构都有哪些。

大脑中的典型负责这一类关系的脑区,是海马。海马里的place cell如同一个不同地点(概念)相互连接的弦网而每个弦长又由更抽象的grid cell来定义。

抽象的符号或者关系是大脑中的先验模板存在的基本形式。比如视觉回路的感受野是先天就确定的, 海马体的place cell也很早就形成。

有了这些表达关系和符号的抽象模板, 我们很容易在经历新的刺激,环境或者任务时候,直接套用已有的抽象,并且略作重新组合,理解新事物。这个理解的过程,可以同样看作两部,一个是生成新的符号(命名新的刺激),另一个就是用刚刚说的结构模板,来强行套用到新的符号上。比如一个毫无香水概念的人一天接触了一百种香奈儿香水,在知道了那些不同的名字后,那么她可能很容易用Ta熟悉的空间概念来套用到不同味道,给她一个“距离”关系,也就是我们常说的比喻的能力,如此几百个味道或许被分到香甜和辛辣两个维度,从而被大脑迅速掌握。

把符号和符号之间的结构性知识结合起来, 得到最终的任务表示。这里的结构性知识是空间网格。网格上可以放各种物体。对网格的认知方便对周围物体的预测。What Is a Cognitive Map?Organizing Knowledge for Flexible Behavior

4. 这种关系或结构的抽象最重要的一个是 4, 强大的层级组合能力,迅速将已有的技能组合成新技能。

用迭代法则构建的层级结构是所有结构性知识里最重要的一种, 因为无论是对符号之间关系的表达, 还是对动作之间关系的表达, 还是状态的构成,树结构是最常见的一种结构。从当下到未来,我们可以用一个状态的决策树表达。动作到动作, 我们可以用一个微观动作到宏观动作的技能树表达。

我们说,层级关系对应了从一些最基本的符号或概念,如何构建更复杂的符号或概念的一个最常用的方法。或者说从已有的若干基本先验假设,构建新的无穷多假设的一种方法,如下图:

通过在函数模板中选择适当的函数构建层级表示,来适应新的任务, 如果有4个函数,经过三个层级表示,得到4的3次方的关系总数

更多层级关系的例子:

我们的语言就是层次结构最典型的体现

勃艮第牛肉的制作过程为例看层级化的强化学习。每个动作由更基本的动作组成,又成为更复杂的动作的基础。技能的构成体现层级嵌套的树结构

上述的强大的建立抽象符号和符号关系建模能力,生成不同的先验假设(模板)能力,加上friston的预测模型暗示的贝叶斯后验更新能力,就构成了人脑超强的构建世界模型的能力,遇到一个新的任务我们就可以快速提炼出新的与之对应的模型,虽然它可能是对已有模板的拼拼凑凑,但是比当下的机器学习强多了。

这种利用抽象结构构建世界模型的能力, 可以与新环境迅速耦合解决强化学习问题。参考文章combinde reinforcemnt learning via abstract representation, Yoshua Bengio

combinde reinforcemnt learning via abstract representation

除了以上4点, 对于人类的元学习能力不能不提的还有两个核心点,一个是因果,一个是意识

5. 因果

刚刚提到的世界模型离不开当下状态和未来状态的关系, 我们不停的预测下一刻的世界变化,这是大脑的热力学第二定律。这个预测系统大部分做的是统计预测,也就是分析不同事件之间的相关性。但是偶尔,它抓住了比这种相关性更深刻的关系--那就是因果。太阳升起引起公鸡叫引起外面的广播体操喇叭响了而不是反过来,这种因果一旦被掌握,它就不太会局限于某个数据集和任务,而是掌握了可以跨越很多任务不同环境使用的规律。假定你学会了用公鸡叫预测太阳升起,那么当你从乡村移动到城市这规律就不能用了。反过来,如果你学会的太阳升起到一系列动物和人的行为的因果关系, 这种泛化能力就大的多。

因此因果也成为最为热门的研究领域。某种意义上,我们也可以把因果图看成刚刚讲的抽象符号关系里的一种。

6. 意识

这可能是所有人类强大元学习能力背后最深奥的一个,讨论起来可能看起来比较玄学,然而不讨论意识,或许我们永远无法真正把握人类超强泛华能力背后最重要的一环。Bengio等对意识做了一定程度的研究,认为它可能代表了一种迅速的把不同脑区得到的不同抽象假设统一在一起,形成一种合并的大脑表征的能力(进入到当下意识中)。或许当人有了意识,它就好比得到了一个产生好多重的无意识自我,并在其间切换的能力。更多内容请参阅论文:

Bengio, Yoshua. "The consciousness prior."arXiv preprint arXiv:1709.08568(2017).

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值