论文精读-Reward is enough

1.文章信息

Reward is enough》 这是Deepmind发表在计算机期刊《Artificial Intelligence》上的一篇文章。

  期刊信息:

2.摘要

这篇文章,作者假设智力及其相关能力能够被认为是为了奖励的最大化。因此,奖励足够驱动表现出自然和人工智能所研究的能力的行为,包括知识,学习,感知,社会智能,语言,概况,和模仿。这与基于其他信号或目标的每种能力都需要专门的问题表述的观点形成鲜明的对比。此外,作者建议通过试错经验来最大化奖励的智能体能够学习到表现出绝大多数甚至所有的这些能力的行为。因此强大的强化学习智能体可以后成人工通用智能体的解决方案。

3、动机

  1. 奖励最大化作为通用目标足以驱动表现出自然和人工智能中所研究的大多数(如果不是全部)能力的行为。
  2. 不同形式的智力可能来自不同环境的奖励信号的最大化。人工智能体可能被要求在未来的环境中最大化各种奖励信号,从而产生新形式的智能。
  3. 即使是一个单一的动物或人类的智力与大量的能力有关。这种奖励最大化的行为与经常与追求每种相关的单独目标所产生的具体行为相一致。
  4. 为什么这种单一的最大化奖励的能力会产生?为一个单一的目标服务而实施能力,而不是为他们自己的专门目标服务

4、模型

1. 知识和学习

该研究将知识定义为智能体内部信息,如智能体包括用于选择动作、预测累计奖励或预测未来观测特征的函数的参数中。一些知识为先验知识,一些为通过学习获得知识。奖励最大化的智能体所在的环境包括先验知识,但先验知识在理论上和实践上有限,所以也包括学习的知识。在更丰富和寿命更长的环境下,智能体对知识的平衡越来越倾向于学习知识。

2.感知

人们需要各种感知能力来积累奖励,如图像分割避免掉下悬崖,物体识别区分是否有毒,脸部识别友方敌方等。包括视觉,听觉,躯体感觉和本体感觉。目前将该问题统一为通过监督学习问题。从奖励最大化而不是监督学习的角度来考虑感知,最终可能会支持更多的感知行为,包括具有挑战性和现实形式的感知能力:

行动和观察:通常交织在多种的感知形式中,如触觉感知,视觉移位等

感知:感知的效用通常取决于智能体的行为

信息:获取信息需要的隐式或者显式成本

数据:数据的分布与环境相关

应用:许多感知的应用并不能获得标记的数据

3. 社会智能

社会智能是一种能够理解其他智能体以及能够与其有效互动的能力。这种理论通常能被博弈论等正式化,作为多智能体博弈的均衡解。在该研究的最大化奖励值假设中,社会智能被理解为 在其他智能体的环境下,从某一个智能体的角度,最大化积累的奖励。按照这种标准的智能体-环境的协议,一个智能体可以观测到其他智能体的行为,和能够通过动作影响其他智能体。一个智能体能够影响其他智能体的行为通常能够获得最大的积累奖励。因此,如果一个环境需要社会智能(例如,因为它包含动物或人类),奖励最大化将产生社会智能。事实上,奖励最大化可能会产生比均衡更好的解决方案。这是因为它可以利用其他代理人的次优行为,而不是假设最佳或最坏情况下的行为。此外,奖励最大化有一个唯一的最优值,而在一般和博弈中,均衡值是不唯一的。

4. 语言

语言一直是自然智能和人工智能的一个重要研究课题。由于语言在人类文化和互动中起着主导作用,智能本身的定义往往是以理解和使用语言的能力为前提的,特别是自然语言。

然而,语言建模本身可能不能产生与智能相关的更广泛的语言能力,包括以下内容:

  1. 语言与其他动作和观测值的模型交织在一起。
  2. 语言是有结果的和有目的的
  3. 语言的效用是根据智能体的情况和行为而变化
  4. 语言处理复杂环境下意外事件的潜在用途可能超过任何语料库的能力                                

根据奖励最大化的假设,语言能力的全部丰富性,包括所有这些更广泛的能力,产生于对奖励的追求。这个过程是一个智能体根据复杂的观察序列(如接收句子)产生复杂的行动序列(如说出句子),以影响环境中的其他智能体(参照上文对社会智能的讨论)并积累更大的奖励的能力。

5. 泛化

泛化能力通常被定义成将一个问题的解决方案转移到另一个解决方案的能力。在该研究的最大化奖励假设中,泛化能力被理解为:在一个智能体和单一复杂的环境之间的重复互动中最大化积累奖励。丰富的环境要求智能体有能够泛化获取状态到未来状态的能力。

6. 模仿

模仿是人类与动物智能相关的重要能力,能促进其他能力的快速获得。在人工智能中,模仿通常被表述为通过行为克隆从演示中学习的问题,其目标是在提供有关教师的行动、观察和奖励的明确数据时,再现教师所选择的行动。与通过行为克隆的直接模仿相比,在复杂环境中可能需要更广泛和现实的观察学习能力,包括:

  1. 其他智能体可能是当前智能体环境的一部分,而无需假设存在包含教师数据的特殊数据集;
  2. 智能体学习自己的状态和其他智能体的状态之间的关联;或者自己的动作和其他智能体的观测值之间的关联;或者更高层次上抽象层次上的
  3. 其他智能体可能被部分观测,因此他们的动作和目标可能被不完全地及时的推断出;
  4. 其他智能体可能展现出来的应该避免的不良行为
  5. 环境中可能有许多其他智能体,表现出不同的技能或不同的能力水平
  6. 观察性学习甚至可能在没有任何明确智能体的情况下发生

该研究推测,更广泛的观察学习能力是由最大化奖励推动的。从单个智能体来看,只能观测到其他智能体作为环境的组成部分,可能会产生很多与行为克隆相似的优点.

7.通用智能

人类,也许还有其他动物所拥有的那种通用智能,可以被定义为在不同环境下灵活地实现各种目标的能力。通用智能有时会被一套环境正式化,这套环境可以衡量智能体在各种不同目标和背景下的能力。根据该研究的最大化奖励假设,通用智能被理解为在一个单一的复杂的环境下最大化一个单一的奖励来实现。动物的经验流足够丰富多样,它可能需要灵活的能力来实现各样的子目标(例如觅食、战斗、逃跑等),以便成功地最大化其整体奖励(例如饥饿或繁殖)。类似地,如果人工智能体的经验流足够丰富,那么单一目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励最大化应该足以产生一种通用人工智能。

   强化学习智能体

该研究的主要假设,及智力及其相关能力可被理解为服务于奖励的最大化,对智能体的性质是不可知的。如何构建一个智能体能最大化奖励是一个重要的问题。通过构建强化学习智能体来最大化奖励。强化学习的智能体能够在学习的过程中获得表现出感知、语言、社会智能等行为,以便能够在一个环境中能最大化奖励。在这个环境中,这些能力具有持续的价值。

5.讨论

1. 哪种环境?

       人们可能会问,通过奖励最大化,哪个环境会产生 "最聪明的 "行为或 "最好的 "具体能力(例如自然语言)。智能体在遇到具体的环境经验能塑造其随后的能力。如 在人一生中遇到的朋友、敌人、老师、玩具、工具、或图书馆。

2. 哪种奖励信号?

       操控奖励信号的原因是:只有精心构建的奖励才能产生通用的智能。该研究认为,奖励的信号是十分稳健的。这是因为环境十分复杂,以至于即使是一个看似无害的奖励信号也可能要求智力及其相关能力。如捡鹅卵石,每收集到一个奖励+1,为了有效地最大化这个奖励信号,智能体可能需要对卵石进行分类,操纵卵石,导航到卵石滩,储存卵石,了解海浪和潮汐及其对卵石分布的影响,说服人们帮助收集卵石,使用工具和车辆来收集更多的卵石,采掘和塑造新的卵石,发现和建立收集卵石的新技术,或者建立一个收集卵石的公司。

3. 除了最大化奖励,还有什么能满足智能的要求?

在强化学习中,智能体的动作被优化以最大化奖励,这些动作反过来决定了从环境中收到的观察结果,而这些观察结果本身又为优化过程提供了信息;此外,优化是实时在线进行的,同时环境也在不断变化。

4. 什么是奖励最大化问题?

与其说是最大化一个由累积奖励定义的通用目标,不如说是为不同情况分别制定目标:例如多目标学习、风险敏感目标或由人在回路中指定的目标。

此外,与其说是解决一般环境下的奖励最大化问题,不如说是针对某一类特定的环境,如线性环境、确定性环境或稳定环境来研究特例问题。虽然这可能适合于特定的应用,但一个专门问题的解决方案通常并不具有普遍性;相反,对一般问题的解决方案也会为任何特殊情况提供解决方案。

强化学习问题也可以转化为一个概率框架,接近奖励最大化的目标[66,39,26,17]。最后,通用决策框架[21]为所有环境中的智能提供了一个理论上但不可计算的模拟;而强化学习问题则为特定环境中的智能提供了一个实际的表述。

5. 从足够大的数据集中进行离线学习,是否就能实现智能?

在复杂的环境下,离线学习不能很好的实现智能。离线学习可能只能够解决那些已经在很大程度上在可用数据中得到解决的问题。此外,解决智能体当前问题所需的数据在离线数据中出现的概率往往可以忽略不计。在线互动允许智能体专门处理它当前面临的问题,不断验证和纠正其知识中最紧迫的漏洞,并找到与数据集中的行为截然不同并取得更大奖励的新行为。

6.奖励信号是否过于贫乏?

一个有效的智能体可以利用额外的经验信号来促进未来奖励的最大化。现在的研究者更倾向引入假设或开发更简单的抽象,然而这些假设回避了一些关键性的问题,目前该组织正在努力研究。

6、创新点

提出了一种假设,一个能够有效学习一种方式实现最大化奖励的智能体,当在一个更丰富的环境中会产生一种富有经验的通用智能的表达。通过从知识、学习、感知、社会智能、语言、概括、模仿和一般智能介绍,并发现奖励最大化可以为理解每种能力提供基础。最后,提出了一个猜想,即智力可以在实践中从足够强大的强化学习智能体中出现,这些之恩那个提可以学习最大化未来的奖励。如果这个猜想是真的,它为理解和构建人工通用智能提供了一条直接的途径。

7、个人总结

感觉本篇论文主要为科普性论文,从人文的角度出发分析为什么要最大化奖励。对于从事其他算法想利用强化学习算法解决的,可以看看。一直研究强化学习算法的,没有很大的必要研读

以上仅是自己的看法

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值