灾难性遗忘_谷歌推出带有记忆的新人工智能,“灾难性遗忘”不是无法克服的挑战...

人类特别擅长把旧技能转移到新问题上。尽管机器在最近的比赛中屡次战胜人类,却无法做到这一点。这部分的源自于它们训练的方式:像谷歌DeepMind这样的人工神经网络只能学习掌握单一的任务。如果要学习新任务,它需要重置,抹去先前的记忆从头开始。

这种现象被相当贴切地称为“灾难性遗忘”,谴责现在的人工智能只是“一招鲜”。

如今,从海马体和我们大脑的记忆存储系统中得到灵感,DeepMind和敦帝国学院(Imperial College London)的研究人员开发出一种算法,允许程序使用它所获得的知识,学习一个又一个任务。

当接受许多雅达利游戏的挑战时,神经网络能够灵活地适应它的策略,掌握每个游戏的玩法;而常规、无记忆的算法则步履蹒跚。

该团队在发表在《美国国家科学院院报》的论文中说,“无遗忘的连续学习任务的能力是生物和人工智能的核心组成部分。”该论文的第一作者詹姆斯·柯克帕特里克博士表示,“如果我们将有更智能、更有用的计算机程序,那么它们必须得有连贯学习的能力。”柯克帕特里克表示,他们的研究克服了人工神经网络和人工智能中的一个“重大缺陷”。

编织记忆

这并不是DeepMind团队首次尝试着给他们的人工智能赋予一些记忆力。

去年,该团队着眼于一种外部记忆模块,它有点类似于人类工作记忆--在使用记忆力推理或解决问题时记住它们的能力。

把神经网络与一块随机存取存储器(RAM)结合在一起,研究人员展示出他们的新混合系统能够执行长期以来一直困扰着常规人工智能系统的多步推理。

但它有一个缺陷:把神经网络与随机存取存储器混合在一起虽然强大,但需要两个组件不断的传输数据--这不是一种优雅的解决方案,更像是能量吸收装置。

在这项新研究中,DeepMind放弃了计算机存储的构想,把精力转移到了人类的存储器--海马体--来寻找灵感。

人工神经网络就像它们的名字一样,松散仿照了它们的生物界同类。由相互连接的神经元层组成,算法采用数以百万计的例子,通过调整神经元之间的连接进行学习--这有点像是为吉他调音。

海马体内会发生一个非常相似的过程。不同之处在于在学习新任务时连接点如何变化。在机器中,权重会被重置,导致先前所有的学习都会被遗忘。

人类的记忆会经历一种选择:如果它们能够帮助继续学习,它们会得到保护;反之,它们会被删除。用这种方式,记忆不仅被存储在神经元的连接处(不需要外部模块),如果被证明有用它们还会停留。

这个理论被称为“突触固化”(synapticconsolidation),它被认为是大脑学习和记忆的基本方面。当然,DeepMind团队也借鉴了这种构想。

设计算法

新算法用一种简单的方式模仿了突触固化。

在学习一个游戏后,算法暂停并计算出每个连接对任务的帮助。因为要学习新技能,它会保留最有用的部分,让改变这些连接变得非常困难。

“通过这种方式我们有了学习新任务的空间,不过我们使用的变化并没有覆盖我们之前所学的知识,”柯克帕特里克说。

这样想:把每一个连接视为不同刚度的弹簧。对解决一项任务更重要的连接,它会变得更坚固,因此随后难以改变。“因为这个原因,”我们把自己的算法称为弹性权重固化(Elastic Weight Consolidation,EWC)”,柯克帕特里克在介绍这种新算法的博客文章中表示。

比赛开始

为测试他们的新算法,DeepMind团队使用了最喜欢的人工智能练兵场:雅达利游戏。

此前,该公司公布了一款基于神经网络、能够像人类玩家一样教自己玩雅达利游戏的人工智能DeepQ-Network(DQN)。这款人工智能可以掌握一个又一个的经典雅达利游戏,但一次只能掌握一款游戏。

在玩每款游戏2000万次之后,在10款游戏当中,团队发现他们的新人工智能已经把7款游戏玩的像人类玩家一样出色。

与之形成鲜明对比的是,如果没有记忆力,经典的算法在培训后只能玩一款单一的游戏。这主要是因为常规人工智能从来不会学着玩更多的游戏,当要学习新游戏时,它们总会遗忘过去的游戏。

“今天,计算机程序不能自主、即时从数据中学习。我们已经表明,灾难性遗忘对神经网络而言不是无法克服的挑战,”柯克帕特里克说。

机器大脑

这并不是说弹性权重固化就是完美的。其中一个问题就是“管制灾难”的可能性。因为即便是网络已经饱和,弹性权重固化中的连接也只能随时间逐渐失去弹性。这会把网络锁定在单一不变的状态,这时它将无法找回记忆或存储新信息。

“我们没有在弹性权重固化设定的更现实的条件下观察到这些限制,可能是因为网络在这些条件下运作良好,”作者就此表示。他们说,“不过算法可能无法精确判断特定连接在每个游戏中的重要性,这可能在未来需要进一步的优化。”

“我们的展示表明弹性权重固化能够逐一学习任务,但我们没有表明它能够学得更好,因为它需要逐一进行学习,”柯克帕特里克说。“我们的算法仍有改进的空间。团队希望自己的努力能够让人工智能研究迈上一个新台阶:强人工智能。”

在过去的十年中,神经科学和机器学习日益交织在一起。“我们希望这项研究代表了一个步骤,能够通过更具有弹性、更有效的方式让人工智能进行学习。”

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值