DeepMind 让AI 拥有记忆并实现序列学习,AlphaGo 一周年技术盘点

DeepMind的最新研究解决了神经网络的“灾难性遗忘”问题,让AI在学习新任务时能保留旧知识,实现序列学习。通过借鉴神经科学原理,他们开发了“弹性权重加固”算法,使AI在不遗忘已学内容的情况下学习多个任务,朝着自适应学习迈进重要一步。
摘要由CSDN通过智能技术生成

感谢新智元授权CSDN发布。
欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@csdn.net

在 AlphaGo 获胜一周年的今天,DeepMind 发表最新研究成果,让神经网络成功在学习新任务的同时,不忘老的任务,向着自适应学习迈出重要一步。盘点 DeepMind 一年多以来的技术和商业成果,他们确实一直向着“解决智能”在努力。在赞叹的同时,我们也需要问自己——中国的 DeepMind 在哪里?

“以前,我们有一个能够学会玩任何游戏的系统,但它一次只能学会玩一个游戏,” DeepMind 研究科学家 James Kirkpatrick 在接受 Wired 采访时表示,“现在我们展示了一个可以一次学习玩好几个游戏的系统。”

Kirkpatrick 提到的这项研究今天在《美国科学院院刊》(PNAS)上发表,展示了 DeepMind 研究人员利用监督学习和强化学习,克服神经网络“灾难性遗忘”的问题——他们成功让 AI 实现了序列学习(sequences learning)。

DeepMind 表示,他们借鉴了神经科学的原理,从哺乳动物和人类的大脑固化以往知识的理论中汲取了灵感。

为了让 AI “拥有记忆”,DeepMind 研究人员此前曾经提出了可微分神经计算机(DNC),将一个外部存储结构引入神经网络。这次,他们开发了一种称为“弹性权重加固”(EWC)的算法,可以说是从内部改善,让神经网络能够在学习新任务的同时,不会忘记此前已经学到的内容。

根据 Kirkpatrick 的解释,算法能够挑选出它成功学会玩一款游戏中最有用的部分,并将这部分知识保留下来。“我们只允许 AI 在游戏之间以非常缓慢的速度做出改变,”Kirkatrick 说:“这样就有空间去学习新的任务,同时发生的变化也不会覆盖以前学习的内容。”

Kirkpatrick 表示,这项成果证明了神经网络可以完成序列性的学习,但这对学习效率是否有提升还不明确。

“我们的下一步是尝试和利用序列学习去改进现实世界的学习。”

DeepMind 再出击,修改学习规则,让神经网络拥有记忆

DeepMind 今天在官方博客发文,具体阐释了他们的这项研究成果。计算机程序在学习执行一项任务后,通常也很快就会忘记它们。DeepMind 在最新的 PHAS 论文中,提出可以修改学习规则从而克服程序遗忘的方法,让程序在学习一个新任务时能够记得旧的任务。这是程序朝向更智能化,能够持续、自适应地学习迈出的重要一步。

深度神经网络是目前用于解决各种任务(包括机器翻译、图像分类、图像生成等)的最成功的机器学习方法。然而,深度神经网络的设计让它们通常只有在所有数据一次性呈现时才能学习多个任务。在一个特定的任务上训练的网络,其参数只适应解决该特定任务。当引入新任务时,新的适应改写了神经网络在前一个任务上获得的知识。这种现象在认知科学中被称为“灾难性遗忘”,并且被认为是神经网络的基本局限之一。

相比之下,人类的大脑的工作方式与之非常不同。人类能够逐步学习,一次学会一个技能,并且在学习新任务时能够运用先前学到的知识。DeepMind 在最新的 PNAS 论文中,提出一种能够克服神经网络的灾难性遗忘的方法。我们的灵感来源于神经科学中有关哺乳动物和人类大脑固化既往获得的技能和记忆的理论。

神经科学家已经发现,大脑存在两种固化(consolidation)方式:系统固化和突触固化。系统固化是指将大脑中快速学习过程获得的记忆印记到缓慢学习的过程。根据已有研究

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值