通过图注意力神经网络进行多智能体游戏抽象_神经科学启发人工智能

来源 http://dx.doi.org/10.1016/j.neuron.2017.06.011

在历史上神经科学人工智能这两个领域一直不断交流,然而近期两个领域的交流与合作愈发少见。实际上,理解生物大脑原理和机制可以更好地构建人工智能。本文总览了历史上AI与神经科学领域的联系,列举了一些受人或动物的神经计算启发的AI领域内的相关进展。

神经科学对新型的算法结构提供了启发,同时也对现存的人工智能进行了检验。但对于AI系统来说,生物的神经结构、功能及信息处理方法有着指导作用,但并非实际标准。从工程的角度来说,最重要的是认清大脑功能实现的核心部分,并将之转化为在人工智能系统中起作用的组件。


在现存的AI 研究中,深度学习和强化学习都受到神经科学的启发。

深度学习

最早的神经网络基于序列计算建立逻辑处理系统,神经生物家提出了并行分布式处理(parallel distributed processing, PDP) ,为神经网络带来了启发。人类的认知和行为来自动态的分布式交互,基于网络内类似神经元的处理单元,通过学习对相互之间的连接进行动态调整,以使得误差最小化或奖励最大化。

举例来说,PDP在解释人类行为上有一系列成功的案例,对机器学习也产生了重要影响,如:机器翻译的研究利用了词语和句子都能以分布式的方式进行表征的特点。目前主流的卷积神经网络结合了神经计算的特点,如非线性转换,归一化和最大值池化这些架构来源于生物网络。哺乳动物视觉皮层的单细胞记录,揭示了如何将视觉输入处理过滤并汇集在V1区域的简单和复杂细胞中。目前的网络架构复制了哺乳动物皮层系统的分层结构,其中收敛和分歧的信息在连续的嵌套处理层中流动,遵循早期神经网络视觉处理模型的先进思想。

在生物和人造系统中,连续的非线性计算将原始的视觉输入转换成越来越复杂的特征集,允许在姿态、光线或尺寸等改变的情况下,正确地识别对象;人类语言研究启发了深度信念网络引入大型数据集;利用生物学中成功的正则化方案,支持训练数据之外的泛化,如生物系统中由神经元带来的类Possion统计的随机性也启发了Dropout算法,即仅使用一部分单元参与给定的训练样本的处理。

强化学习

强化学习解决了如何将环境状态的映射到行动中以获得最大化的未来奖励的问题,并且是目前AI研究中使用的最广泛的工具之一。时序差分法(Temporal-Difference, TD) 的发展是许多强化学习模型的重要组成部分,与实验中的动物行为的研究密切相关。作为一个实时模型,TD能从连续性预测的差别中进行学习,而不必等到实际的奖励到达。与此特别相关的是二级条件的效应:效果的好坏在一个条件刺激与另一个条件刺激结合中得到评估,而不是通过无条件刺激的结合来进行。基于神经科学的知识,TD方法和相关技术已应用于机器人控制、围棋及西洋双陆棋中。


目前的AI文献中,与神经科学的联系已经减弱,然而其中的深层构造也能发现一些受神经科学启发的例子。

注意力

灵长类的视觉系统中,视觉注意力会在地理位置和对象之间战略性地转移,在一定区域上聚焦而非并行处理所有输入信息。在与此对应的AI系统架构中,系统逐步选择采样位置,在长短时记忆网络(long-short-term memory, LSTM) 中更新内部信息,之后选择下一个采样位置。这样的结构有利于在物体分类任务中忽略不相关对象,同时控制了计算成本。

4a821d6307542d075ad9fc789ea53102.png

图1 长短时记忆(LSTM)网络中的注意力机制

情景记忆

情景记忆是多种记忆系统中的一种,是一种基于实例机制,通常与内侧颞叶的回路相关,主要是海马体。在生物体的海马体中,奖励动作序列能够在内部记忆库中被重新激活。动物的学习系统由海马和新皮质的互补体系为基础:海马体在单独一次接触后对信息进行编码,并在睡眠休息期间将信息整合到大脑皮层。

fcc21bd5466ae9e902abaf63de43381a.png

图2 学习与情景记忆的互补系统

AI训练中也有类似的过程,‘’experience replay‘’,即网络以基于实例的方式储存训练数据,之后‘’离线重播‘’,解决了依次接触相关联任务会使策略之间相互干扰导致遗忘的问题,同时提高了数据利用效率。这类网络储存特定的体验,并且基于当前情况和存储中的先前事件的相似性及相关联的奖励,选择新的动作。这类网络在少样本情况下实现快速学习具有明显的优势。

工作记忆

人类能够维持和操控一个活跃存储空间内的信息,即工作记忆,被认为是在前额叶皮质和相互关联的区域内实例化的。这种联系类似于中央控制器和特定区域的内存缓冲区之间的交互。

2d6f45a7fdeadd04c3a7e09f05698eb1.png

图3 工作记忆与计算机之间的相似性

AI系统受此启发,形成了学习动态与长短时记忆(LSTM) 网络。LSTM将信息门设置为活动状态并保持适当的输出,实现了性能的提升。在更为复杂的AI架构中,差分神经计算机(Differential neural computer, DNC) 包含从外部矩阵进行读写的神经网络控制器,能从端到端完成优化,完成复杂的推理任务,如通过图形结构找到最短路径,在河内塔任务中完成搭积木任务。

持续学习

生物体能够学习和记忆多个时间尺度上遇到的不同任务,在掌握新任务的同时吗,不遗忘先前任务,即持续学习的能力;而神经网络在执行连续任务的第二个任务时,网络参数向最佳状态转移从而导致对第一个任务的参数的改变,导致‘’遗忘‘’。神经成像技术显示,生物能通过减少一部分被增强的生物突触可塑性,保护之前任务的有关知识,即记忆由突触间的可塑性的程度转变所保护。

a9a21434ae499e72fc1564399d69439f.png

图4 神经生物学模型与EWC算法的平行关系

基于这个发现,科学家提出了一种弹性权重整合网络(elastic weight consolidation, EWC):通过找出在先前任务中起重要作用的网络权重的子集,将参数锚定且减小学习率,实现继续学习。这种神经网络使得权重在具有相关结构的任务之中能够有效共享,在不增加容量的情况下完成多个任务的学习。


目前,人工智能与人类之间的差距很大,需要大量的工作弥补。借助脑成像和遗传生物学的相关工具,神经科学将为此带来更多启发。直观理解物理世界AI缺少对物理世界概念的直观理解,如空间、数量、客观性等。这些概念在人类构建模型进行推理和预测时尤为重要。研究人员通过将场景分解成单独的对象及他们之间的关系,模拟人类对场景进行阐释和推理的过程。

6659d978079673397990c80cd0ec8516.png

图5 人类对物理概念的直观理解和预测

f336783c7124a94c28781968b69e6eac.png

图6 神经网络对场景的理解方式

在婴孩交互实验中,深度强化学习捕捉了对世界常识的认知过程,开发出能够从原始感官输入构建对象模型的深度生成模型。更重要的是,这类生成模型显示出综合性,能够在任务之间灵活迁移。

169ab3196101ab6ac46950914c2d3201.png

图7 对对象核心属性的无监督学习

高效学习

人类可以从少数的例子中快速理解概念,利用先验知识进行推理。对AI而言,类似任务相对比较困难。最近的AI算法如结构化概率模型和深度生成模型都在字符分辨等任务上有所进展。

b355abb14398ef44e32f316ec17dba00.png

图8 深度序列生成模型的one-shot泛化

除此之外,“学习如何学习“的AI研究集中利用相关问题的先验经验获取新任务的知识,支持单次学习并加快强化学习的过程。

迁移学习

人类能够很好地将在一个环境中获得的广义知识推广到新的领域,并在新环境中采取有效行动。在神经科学的研究中,迁移学习的标志之一就是能够有关联地进行推理。研究人员认为,在神经编码层面上,抽象结构化知识的迁移依赖于对象,个体或场景元素中不变的概念,但相关研究较少。在最近的一个报告,研究人员使用神经造影技术,发现了在人类执行抽象分类任务时,存在关于抽象结构的神经编码,支持了周期性解码是人类知识组织的一般性标志的观点,仍需后续验证。对AI架构来说,完成这类任务的需要很强的泛化能力或迁移能力。例如progressive network 架构可以利用从一个视频游戏中获得的知识,在另一个视频游戏中利用并快速学习,这种能力类似于人类的“远程转移”。这种网络可以用于减少机器人臂的训练时间,且与人类顺序任务学习的计算模型相似。例如通过基于综合表示对训练分布之外的新形状进行zero-shot推断。

其他研究表明,一类被称为 progressive network 的架构可以利用一个视频游戏中获得的知识,在另外一个视频游戏中获得快速的学习,这有希望获得人类技能特征之一的“远程转移”(far transfer)。progressive network也被成功用于将模拟环境中智能体的知识转移给真正的机器人臂,大大减少了所需的训练时间。有趣的是,它所提出的架构与人类顺序任务学习的成功计算模型有一些相似之处。

想象与计划

人类可以通过经验学习,构建对未来模拟的模型,完成对长期结果的预测,灵活地选择行动。目前而言,人工智能规划技术和强化学习都旨在实现这样的行动决策,此外还有钱箱搜索和蒙特卡洛树方法。神经科学的研究发现海马体能够通过实例化环境的内部模型来支持规划,对采用分离控制器和环境模型架构开发的,能实现模拟规划功能的智能体有所启发。

70d7c826da3f896e40ea4230766abb86.png

图9 神经网络对现实环境的想象

算法可解释性
神经科学为AI系统中的计算提供了新的工具。 目前,AI研究的产品仍是一个“黑盒子”,我们对复杂任务学习中计算和表现的本质知之甚少。 将分析神经科学的工具用于AI系统,例如单细胞记录,神经影像等,我们可以深入了解AI研究的关键,提高系统的可解释性。 从AI到神经科学

历史上,神经科学与人工智能之间的信息流是相互的。如机器学习加快了神经影像数据的分析,能更好地分析功能连接,我们认为,开发智能算法有可能会提供关于人类和其他动物大脑智力基础研究的新思路。心理学家和神经科学家往往对于所研究概念(concept)依据的机制,只有相当模糊的概念(notion)。人工智能研究通过定量地形式化这些概念,并对智能行为的必要性和充分性(或反过来)提供洞察,来起到辅助作用。

本文回顾了神经科学为推动 AI 研究做出的基础性贡献,并且认为其相关性日益重要。神经科学通常以一种微妙但有效的方式,激发了AI研究人员感兴趣的问题,并提供了相关机制的初步线索。因此,利用神经科学研究获得的信息将加速人工智能研究的进展,如果 AI 研究人员积极开展与神经科学家的合作,并突出可以通过实证研究来解决的关键问题,则将卓有成效。


核心参考文献:

Hassabis D, Kumaran D, Summerfield C, et al. Neuroscience-Inspired Artificial Intelligence[J]. Neuron, 2017, 95(2):245-258.

其他参考文献:

1 LeCun, Y.,Bengio, Y., and Hinton, G. (2015). Deep learning. Nature 521,436–444.
2 McCulloch,W., and Pitts, W. (1943). A logical calculus of ideas immanent in nervousactivity. Bull. Math. Biophys. 5, 115–133.
3 LeCun, Y.,Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., and Jackel,L.D. (1989). Backpropagation applied to handwritten zip code recognition.Neural Comput. 1, 541–551.
4 Krizhevsky,A., Sutskever, I., and Hinton, G. (2012). ImageNet classification with deepconvolutional neural networks. In Advances in Neural Information ProcessingSystems 25, pp. 1097–1105.
5 Hinton,G.E., Srivastava, N., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R.R.(2012). Improving neural networks by preventing co-adaptation of feature detectors.arXiv, arXiv:12070580.
6 Sutton, R.,and Barto, A. (1998). Reinforcement Learning (MIT Press).
7 Moore, T.,and Zirnsak, M. (2017). Neural mechanisms of selective visual attention. Annu.Rev. Psychol. 68, 47–72.
8 Mnih, V.,Heess, N., Graves, A., and Kavukcuoglu, K. (2014). Recurrent models of visualattention. arXiv, arXiv:14066247.
9 Ba, J.L.,Mnih, V., and Kavukcuoglu, K. (2015). Multiple object recognition with visualattention. arXiv, arXiv:14127755.
10 Mnih, V.,Kavukcuoglu, K., Silver, D., Rusu, A.A., Veness, J., Bellemare, M.G., Graves,A., Riedmiller, M., Fidjeland, A.K., Ostrovski, G., et al. (2015). Humanlevelcontrol through deep reinforcement learning. Nature 518, 529–533.
11 Silver, D.,Huang, A., Maddison, C.J., Guez, A., Sifre, L., van den Driessche, G., Schrittwieser,J., Antonoglou, I., Panneershelvam, V., Lanctot, M., et al. (2016). Masteringthe game of Go with deep neural networks and tree search. Nature 529, 484–489.
12 Schaul, T.,Quan, J., Antonoglou, I., and Silver, D. (2015). Prioritized experience replay.bioRxiv, arXiv:1511.05952
13 Baddeley,A. (2012). Working memory: theories, models, and controversies. Annu. Rev.Psychol. 63, 1–29.
14 Botvinick,M.M., and Plaut, D.C. (2006). Short-term memory for serial order: a recurrentneural network model. Psychol. Rev.


如有勘误或投稿,请邮件联系liuqy@sustech.edu.cn

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值