第一章
介绍
当我们考虑学习的本质时,我们首先想到的可能是通过与环境互动学习。当一个婴儿玩耍,挥动手臂或环顾四周时,它没有明确的老师,但它确实与其环境有直接的感觉运动联系。通过这种联系可以产生大量关于因果关系的信息,关于动作的后果,以及为实现目标应该做些什么。在我们的生活中,这种互动无疑是关于我们的环境和我们自己的主要知识来源。无论我们是学习驾驶汽车还是进行对话,我们都敏锐地意识到我们的环境如何响应我们的行为,并且我们试图通过我们的行为来影响所发生的事情。 从互动中学习是几乎所有学习和智力理论的基础理念。
在本书中,我们探索了一种从交互中学习的计算方法。我们主要探讨理想化的学习情境,并评估各种学习方法的有效性,而不是直接理解人或动物的学习方式。也就是说,我们采用人工智能研究员或工程师的角度。我们通过数学分析或计算实验评估设计,探索有效解决科学或经济利益学习问题的机器设计方法。我们探索的方法,就叫做强化学习,是一种更侧重于从交互中进行目标导向的学习,而不是其他机器学习方法。
1.1 强化学习
强化学习是学习做什么--如何将情境映射到行动—以最大化数字奖励信号。学习者不会被告知要采取哪些行动,而是必须通过尝试来发现哪些行动产生最大的回报。在最有趣味性和最具挑战性的案例中,动作不仅可以影响直接奖励,还可以影响下一个情况,并通过这种情况影响所有后续奖励。这两个特征--试错探索和延迟奖励--是强化学习的两个最重要的区别特征。
强化学习,就像许多名称以“ing”结尾的主题一样,例如机器学习和登山,同时也是一个问题,是一类能够很好地解决问题的解决方法,以及研究这个问题的领域及其解决方法。对以上三件事情使用单一名称很方便,但同时必须保持三者在概念上分开。特别是,问题和解决方法之间的区别在强化学习中非常重要,没有做出这种区分是许多混淆的根源。
我们使用来自动力系统理论的思想来形式化强化学习的问题,特别是作为对不完全已知的马尔可夫决策过程的最优控制。这种形式化的细节必须等到第3章,但基本思想只是捕捉学习智能体与其环境相互作用,以实现目标过程中所面临的真正问题的最重要方面。学习智能体必须能够在某种程度上感知其环境状态,并且必须能够采取影响状态的操作。智能体还必须有与环境状态相关的目标。马尔可夫决策过程旨在以最简单的形式包括--感知,动作和目标这三个方面,而不会轻视任何一个。 任何非常适合解决此类问题的方法我们认为是强化学习方法。
强化学习不同于有监督学习,后者是当前机器学习领域的大多数研究中所用到的学习方式。有监督的学习,是从知识渊博的外部指导者提供的一组训练标记样本中学习。每个样本都是一个情况和规范的描述,规范也就是系统应该对该情况采取的正确行动的标签,这通常用于识别情况所属的类别。这种学习的目的是让系统推断或概括其反应,使其在训练集中不存在的情况下正确行动。这是一种重要的学习方式,但仅凭它不足以从交互中学习。 在交互式问题中,获得所需动作的样本通常是不切实际的,因为这些动作必须既正确又代表了智能体面对所有情况采取的动作。在未知的领域,人们期望学习的最有益,智能体必须能够从自己的经验中学习。
强化学习也与机器学习研究人员所称的无监督学习不同,后者通常是发现隐藏在未标记数据集合中的结构。监督学习和无监督学习这两个术语似乎对机器学习范式进行了详尽的分类,但事实却并非如此。 虽然人们可能会认为强化学习是一种无监督学习,因为它不依赖于正确动作的样本,强化学习试图最大化奖励信号而不是试图找到隐藏的结构。 在智能体的经验中,揭示结构在强化学习中的作用是毋庸置疑的,但是它本身并没有解决最大化奖励信号的强化学习问题。 因此,我们认为强化学习是第三种机器学习范式,同时还有监督学习和无监督学习,也许还有其他范式。
强化学习中出现的挑战之一,是探索和开发之间的权衡,而不是其他类型学习。为了获得更多的奖励,强化学习智能体倾向于它过去尝试过的动作以及能够有效地产生奖励的动作。但是要发现这样的动作,它必须尝试以前没有选择的动作。智能体必须利用它已经经历的东西来获得奖励,但它也必须进行探索,以便在将来做出更好的动作选择。困境在于,任何探索和开发都不能完全在没有失败的情况下进行。智能体必须尝试各种操作,并逐渐支持那些看起来最好的操作。在随机任务中,必须多次尝试每个动作,以获得对其预期奖励的可靠估计。几十年来,数学家一直在深入研究探索-开发困境,但仍未得到解决。 就目前而言,我们只是注意到,平衡探索和利用的整个问题甚至不会出现在有监督和无监督的学习中,至少是以最纯粹的形式出现。
强化学习的另一个关键特征是,它明确地考虑了目标导向的智能体与不确定环境交互的这整个问题。这与许多考虑子问题的方法形成对比,这些方法没有解决它们如何适合更大的化身。我们已经提到很多有关机器学习的研究都关注有监督学习而没有明确说明这种能力最终如何有用。虽然其他研究人员已经制定了具有总体目标的规划理论,但没有考虑规划在实时决策中的作用,也没有考虑规划所需的预测模型来自何处的问题。尽管这些方法已经产生了许多有用的结果,但是它们对孤立子问题的关注是一个重要的限制。
强化学习采取相反的策略,从一个完整的,互动的,寻求目标的智能体开始。所有强化学习智能体都有明确的目标,可以感知环境的各个方面,从而选择影响其环境的动作。此外,通常从一开始就假设代理人必须在其面临的环境存在很大不确定性的情况下运作。当强化学习涉及规划时,它必须解决规划和实时行动选择之间的相互作用,以及如何获取和改进环境模型的问题。当强化学习涉及监督学习时,它会出于特定的原因这样做,以确定哪些能力是关键的,哪些不是。为了学习研究以取得进步,必须分离和研究重要的子问题--即使完整智能体的所有细节都无法填补,但它们应该是在完整的,互动的,寻求目标的智能体中发挥明确作用的子问题。
我们所说的一个完整的,互动的,追求目标的智能体,并不总是意味着什么完整的有机体或机器人。这些都是明显的例子,但是一个完整的,互动的目标寻求代理也可以是更大的行为系统的一个组成部分。在这种情况下,代理直接与较大系统的其余部分交互,并间接与较大系统的环境交互。一个简单的例子是监视机器人电池充电水平并向机器人控制架构发送命令的智能体。该智能体的环境是机器人的其余部分以及机器人的环境。人们必须超越最明显的智能体及其环境的例子来理解强化学习框架的普遍性。
现代强化学习最令人兴奋的方面之一是其实质性以及与其它工程和科学学科的富有成效的互动。强化学习是人工智能和机器学习中数十年趋势的一部分,旨在与统计学,优化法和其他数学学科更好地整合。例如,一些强化学习方法用参数化逼近器学习的能力解决了在运筹学和控制理论中的经典的维度问题。更有特色的是,强化学习与心理学和神经科学也有很强的相互作用,双方都有很大的好处。在所有形式的机器学习中,强化学习最接近人类和其他动物所做的学习,而强化学习的许多核心算法最初都受到生物学习系统的启发。强化学习通过学习动物的心理模型,更好地匹配一些经验数据,以及通过大脑部分奖励系统的有影响力的模型,也得到了一些回报。本书正文介绍了与工程学和人工智能相关的强化学习的思想,并在第14章和第15章中总结了与心理学和神经科学的联系。
最后,回到简单的一般原则,强化学习也是人工智能更大趋势的一部分。自20世纪60年代后期以来,许多人工智能研究人员认为没有一般的原则可供发现,而智能则归因于拥有大量特殊用途的技巧,程序和启发式。有时候说,如果我们能够将相关的事实充分地提供给一台机器,比如一百万或十亿,那么它就会变得聪明起来。基于一般原则(如搜索或学习)的方法被描述为“弱方法”,而基于特定知识的方法被称为“强方法” 这种观点今天仍然很普遍,但并不占优势。 从我们的观点来看,这只是为时过早:因为在寻找一般原则时没有经过太多的努力来得出这个结论。现代人工智能现在包括许多研究,寻找学习的一般原则,搜索和决策,以及尝试整合大量的领域知识。目前尚不清楚钟摆会摆动多远,但强化学习研究肯定是让人工智能更简单,更少的一般原则的回归的一部分