Relational Reinforcement Learning: An Overview

Abstract

关系强化学习(RRL)既是一个年轻的领域,又是一个古老的领域。 在本文中,我们追溯了该领域的历史和相关学科,概述了一些当前的工作和有希望的新方向,并调查了未来的研究问题和机会。

Introduction

长期以来,将学习与解决问题相结合一直是人工智能的梦想。 尽管这似乎与分而治之的原则背道而驰,但仍有许多充分的理由采用这种综合方法。 解决问题通常在计算上很困难,并且如果不学习,agent将无法利用自身的经验来提高将来解决问题的效率。 另一方面,孤立学习取决于外部专业知识来决定哪些值得学习并提供训练数据。 这样的专业知识并非总是可用,并且在可用时通常很昂贵。 因此,诸如LEX(Mitchell等,1983),SOAR(Laird等,1986)和Prodigy(Minton等,1989)之类的系统开创了将问题解决与学习相结合的方法,尽管他们具有完整的知识和正确的领域模型,并在一个完全可观察和确定性的世界中。

基于马尔可夫决策过程理论的强化学习(RL)放宽了其中的一些假设,包括确定性和对领域模型的全面了解(Kaelbling等,1996; Bertsekas&Tsitsiklis,1997; Sutton&Barto,1998)。 agent没有被提供完整和正确的领域理论,而是处于一种环境中,可以通过采取行动并接受积极或消极的强化,与agent进行交互以收集领域知识。 agent的主要目标是学习一种基于其当前状态选择其行为的方法,即学习一种将状态映射到行为的策略,从而优化性能指标,例如每个时间步长收到的预期平均奖励。

强化学习为构建智能agent提供了一个通用框架和一系列方法,这些智能agent可以在最少的监督下优化其在随机环境中的行为。 但是,不幸的是,目前RL中的大多数工作都是基于命题表示法,这使其很难将其应用于复杂的现实世界任务,例如从Web检索信息,自然语言处理或在诸如现实世界这样丰富的领域中进行规划,如烹饪。 命题RL在此类领域中的成功应用通常只有通过对命题特征进行专业的人工构造才能实现。 这些领域中的状态和动作更自然地以关系形式表示,并且人们似乎经常在学习和泛化中利用丰富的关系结构。 问题自然而然地出现了:这是怎么做的?

在本概述文章中,我们激励RRL尝试回答这个问题,将其置于历史背景下,概述一些有前途的方法和新方向,并讨论该领域中的一些开放研究问题。

Motivation

考虑一个典型的网络问题解答任务(Berners-Lee等,2001; Fensel等,2002),该任务可能涉及访问和集成来自网络的半结构化信息以回答一个复杂的查询,例如“查找西海岸的一所研究生院,这里有经济适用房,多个教职员工,并且资助了人工智能方面的研究。”即使以正式的查询语言提出查询,要回答该问题,也需要一些技能,例如查询计划,优化,信息提取以及以关系语言进行信息集成。或考虑学习烹饪一顿饭涉及什么。虽然当然不是详尽无遗的清单,但需要推理一下人们的口味和喜好,自己对食谱和技能的了解,配料的可用性,使用地点,使用它们的程序,器皿和炊具的容量以及所产生的影响不同成分的比例,烹饪温度以及不同类型的烹饪过程对最终产品的口味和质量的影响。

容易将这两个问题都视为强化学习问题。 在这两个任务中,我们可能会因花费的时间和其他费用而对系统进行惩罚,并为最终产品的质量而给予奖励。 然而,问题在于,网的结构和烹饪任务中涉及的推理最自然地使用关系表示来表示。 这给RL在这些领域的成功提出了若干挑战。

Function Approximation: 当应用于关系域时,通常在RL(例如神经网络或回归树)中使用的值函数近似不能很好地泛化。 部分原因是因为这些表示不适合表示关系知识的任务。 当它们成功时,他们需要仔细选择专门针对手头特定任务手工设计的命题特征或基本功能。 设计在存在时利用关系结构的函数逼近方案是一个严峻的挑战。

Generalization Across Objects: RL方法不能明确表示对象及其之间的关系,因此从一个对象学习到相似的相关对象的能力从根本上受到限制。 这里的关键挑战是识别被认为是“相似”的对象的类,在这些类上证明这种泛化是合理的,以及识别和表示适合传递的知识。

Transfer across Tasks: RL程序通常在单个任务上进行测试,并且不会表现出跨任务的知识转移。 给定域中的每个任务,例如信息检索中的每个查询,在按命题制定时可能看起来完全不同,因此可能需要单独的训练才能收敛。 关系表示便于将相关任务的广泛集合表述为单个域,从而在这些相关任务之间产生自然的泛化。

Run-time Planning and Reasoning: 在大多数强化学习工作中,运行时没有刻意的规划和推理。 默许地假定所有规划都是离线进行的,或者系统完全依靠探索和学习来构造好的规划,从而将运行时执行减少为被动行为。 但是,复杂的动态域既需要考虑又需要反应,正如成功的游戏程序所证明的那样。 似乎值函数的近似性质要求在运行时进行更精细的搜索以补偿其误差。 推理在构建新功能以改进值函数近似中也可能很重要。

Prior Knowledge: RL不再强调先验知识在学习和推理中的作用,因此依赖于尝试和错误学习,这是非常低效的,并且通常无法扩展到诸如上述的更复杂的任务。

关系强化学习(RRL)试图通过将RL概括为关系表示的状态和动作来解决所有上述问题。 实际上,强化学习和关系学习都有悠久的历史。 强化学习的研究始于1959年塞缪尔(Samuel)在跳棋方面的开创性工作(Samuel,1990)。 关系学习的工作始于温斯顿关于块世界学习的工作(温斯顿,1975年)。 近年来,以不同的名称研究关系学习,包括归纳逻辑规划,关系数据挖掘和概率关系建模。 强化学习也以多种方式进行了研究,其中神经动态规划和决策理论规划最为人所知。

也许不太明显,并且正如引言中所提到的,强化学习也与加速学习以及SOAR和Prodigy等系统密切相关。确实,经典的《机器学习阅读》(Shavlik&Dietterich,1990)将塞缪尔的工作归类于加速学习。这是有道理的,因为在加速学习中,学习任务被视为通过学习适当的控制知识(即,学习在什么时候或某个策略时该做什么)来加速暴力问题解决者。尽管遵循经典计划范式的提速学习工作并未考虑动态域和随机性,但从一开始就采用了关系表示。加速学习与强化学习之间的另一个区别是,在加速学习中,假定给出了领域理论,即动作模型和即时奖励函数,而在RL中,仅提供了仿真模型。

关系强化学习(RRL)将状态和动作的关系表示形式的表现力以及强化学习的动态性和随机性结合在一起,从而为学习创造了一个非常笼统且具有挑战性的环境。

Reinforcement Learning

强化学习(RL)的基础是一种agent,该agent可以使用传感器感知周围世界,并通过效应器对周围世界进行操作,从而与周围环境进行交互。除了传感器和效应器外,agent还获得了增强或奖励。通常,环境可能是随机的,动态的,并且只能部分观察。对于不同的操作定义,agent的目标是以一种行为来优化其预期的长期效用,例如,优化每步的预期平均报酬或优化每一步的几何折扣的预期总报酬(Puterman, 1994)。

鉴于RL的这个宏伟目标&#

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值