Reinforcement Learning An Introduction~Reinforcement Learning

第一章

 

介绍

 

当我们考虑学习的本质时,我们首先想到的可能是通过与环境互动学习。当一个婴儿玩耍,挥动手臂或环顾四周时,它没有明确的老师,但它确实与其环境有直接的感觉运动联系。通过这种联系可以产生大量关于因果关系的信息,关于动作的后果,以及为实现目标应该做些什么。在我们的生活中,这种互动无疑是关于我们的环境和我们自己的主要知识来源。无论我们是学习驾驶汽车还是进行对话,我们都敏锐地意识到我们的环境如何响应我们的行为,并且我们试图通过我们的行为来影响所发生的事情。 从互动中学习是几乎所有学习和智力理论的基础理念。

       在本书中,我们探索了一种从交互中学习的计算方法。我们主要探讨理想化的学习情境,并评估各种学习方法的有效性,而不是直接理解人或动物的学习方式。也就是说,我们采用人工智能研究员或工程师的角度。我们通过数学分析或计算实验评估设计,探索有效解决科学或经济利益学习问题的机器设计方法。我们探索的方法,就叫做强化学习,是一种更侧重于从交互中进行目标导向的学习,而不是其他机器学习方法。

1.1 强化学习

强化学习是学习做什么--如何将情境映射到行动—以最大化数字奖励信号。学习者不会被告知要采取哪些行动,而是必须通过尝试来发现哪些行动产生最大的回报。在最有趣味性和最具挑战性的案例中,动作不仅可以影响直接奖励,还可以影响下一个情况,并通过这种情况影响所有后续奖励。这两个特征--试错探索和延迟奖励--是强化学习的两个最重要的区别特征。

强化学习,就像许多名称以“ing”结尾的主题一样,例如机器学习和登山,同时也是一个问题,是一类能够很好地解决问题的解决方法,以及研究这个问题的领域及其解决方法。对以上三件事情使用单一名称很方便,但同时必须保持三者在概念上分开。特别是,问题和解决方法之间的区别在强化学习中非常重要,没有做出这种区分是许多混淆的根源。

我们使用来自动力系统理论的思想来形式化强化学习的问题,特别是作为对不完全已知的马尔可夫决策过程的最优控制。这种形式化的细节必须等到第3章,但基本思想只是捕捉学习智能体与其环境相互作用,以实现目标过程中所面临的真正问题的最重要方面。学习智能体必须能够在某种程度上感知其环境状态,并且必须能够采取影响状态的操作。智能体还必须有与环境状态相关的目标。马尔可夫决策过程旨在以最简单的形式包括--感知,动作和目标这三个方面,而不会轻视任何一个。 任何非常适合解决此类问题的方法我们认为是强化学习方法。

强化学习不同于有监督学习,后者是当前机器学习领域的大多数研究中所用到的学习方式。有监督的学习,是从知识渊博的外部指导者提供的一组训练标记样本中学习。每个样本都是一个情况和规范的描述,规范也就是系统应该对该情况采取的正确行动的标签,这通常用于识别情况所属的类别。这种学习的目的是让系统推断或概括其反应,使其在训练集中不存在的情况下正确行动。这是一种重要的学习方式,但仅凭它不足以从交互中学习。 在交互式问题中,获得所需动作的样本通常是不切实际的,因为这些动作必须既正确又代表了智能体面对所有情况采取的动作。在未知的领域,人们期望学习的最有益,智能体必须能够从自己的经验中学习。

强化学习也与机器学习研究人员所称的无监督学习不同,后者通常是发现隐藏在未标记数据集合中的结构。监督学习和无监督学习这两个术语似乎对机器学习范式进行了详尽的分类,但事实却并非如此。 虽然人们可能会认为强化学习是一种无监督学习,因为它不依赖于正确动作的样本,强化学习试图最大化奖励信号而不是试图找到隐藏的结构。 在智能体的经验中,揭示结构在强化学习中的作用是毋庸置疑的,但是它本身并没有解决最大化奖励信号的强化学习问题。 因此,我们认为强化学习是第三种机器学习范式,同时还有监督学习和无监督学习,也许还有其他范式。

       强化学习中出现的挑战之一,是探索和开发之间的权衡,而不是其他类型学习。为了获得更多的奖励,强化学习智能体倾向于它过去尝试过的动作以及能够有效地产生奖励的动作。但是要发现这样的动作,它必须尝试以前没有选择的动作。智能体必须利用它已经经历的东西来获得奖励,但它也必须进行探索,以便在将来做出更好的动作选择。困境在于,任何探索和开发都不能完全在没有失败的情况下进行。智能体必须尝试各种操作,并逐渐支持那些看起来最好的操作。在随机任务中,必须多次尝试每个动作,以获得对其预期奖励的可靠估计。几十年来,数学家一直在深入研究探索-开发困境,但仍未得到解决。 就目前而言,我们只是注意到,平衡探索和利用的整个问题甚至不会出现在有监督和无监督的学习中,至少是以最纯粹的形式出现。

    强化学习的另一个关键特征是,它明确地考虑了目标导向的智能体与不确定环境交互的这整个问题。这与许多考虑子问题的方法形成对比,这些方法没有解决它们如何适合更大的化身。我们已经提到很多有关机器学习的研究都关注有监督学习而没有明确说明这种能力最终如何有用。虽然其他研究人员已经制定了具有总体目标的规划理论,但没有考虑规划在实时决策中的作用,也没有考虑规划所需的预测模型来自何处的问题。尽管这些方法已经产生了许多有用的结果,但是它们对孤立子问题的关注是一个重要的限制。

    强化学习采取相反的策略,从一个完整的,互动的,寻求目标的智能体开始。所有强化学习智能体都有明确的目标,可以感知环境的各个方面,从而选择影响其环境的动作。此外,通常从一开始就假设代理人必须在其面临的环境存在很大不确定性的情况下运作。当强化学习涉及规划时,它必须解决规划和实时行动选择之间的相互作用,以及如何获取和改进环境模型的问题。当强化学习涉及监督学习时,它会出于特定的原因这样做,以确定哪些能力是关键的,哪些不是。为了学习研究以取得进步,必须分离和研究重要的子问题--即使完整智能体的所有细节都无法填补,但它们应该是在完整的,互动的,寻求目标的智能体中发挥明确作用的子问题。

    我们所说的一个完整的,互动的,追求目标的智能体,并不总是意味着什么完整的有机体或机器人。这些都是明显的例子,但是一个完整的,互动的目标寻求代理也可以是更大的行为系统的一个组成部分。在这种情况下,代理直接与较大系统的其余部分交互,并间接与较大系统的环境交互。一个简单的例子是监视机器人电池充电水平并向机器人控制架构发送命令的智能体。该智能体的环境是机器人的其余部分以及机器人的环境。人们必须超越最明显的智能体及其环境的例子来理解强化学习框架的普遍性。

    现代强化学习最令人兴奋的方面之一是其实质性以及与其它工程和科学学科的富有成效的互动。强化学习是人工智能和机器学习中数十年趋势的一部分,旨在与统计学,优化法和其他数学学科更好地整合。例如,一些强化学习方法用参数化逼近器学习的能力解决了在运筹学和控制理论中的经典的维度问题。更有特色的是,强化学习与心理学和神经科学也有很强的相互作用,双方都有很大的好处。在所有形式的机器学习中,强化学习最接近人类和其他动物所做的学习,而强化学习的许多核心算法最初都受到生物学习系统的启发。强化学习通过学习动物的心理模型,更好地匹配一些经验数据,以及通过大脑部分奖励系统的有影响力的模型,也得到了一些回报。本书正文介绍了与工程学和人工智能相关的强化学习的思想,并在第14章和第15章中总结了与心理学和神经科学的联系。

    最后,回到简单的一般原则,强化学习也是人工智能更大趋势的一部分。自20世纪60年代后期以来,许多人工智能研究人员认为没有一般的原则可供发现,而智能则归因于拥有大量特殊用途的技巧,程序和启发式。有时候说,如果我们能够将相关的事实充分地提供给一台机器,比如一百万或十亿,那么它就会变得聪明起来。基于一般原则(如搜索或学习)的方法被描述为“弱方法”,而基于特定知识的方法被称为“强方法” 这种观点今天仍然很普遍,但并不占优势。 从我们的观点来看,这只是为时过早:因为在寻找一般原则时没有经过太多的努力来得出这个结论。现代人工智能现在包括许多研究,寻找学习的一般原则,搜索和决策,以及尝试整合大量的领域知识。目前尚不清楚钟摆会摆动多远,但强化学习研究肯定是让人工智能更简单,更少的一般原则的回归的一部分

### 回答1: 《强化学习导论》是由Richard S. Sutton和Andrew G. Barto合著的一本经典教材。该书详细介绍了强化学习的基本概念、算法和应用。 强化学习是一种机器学习方法,通过让智能体与环境进行交互学习来解决决策问题。与其他机器学习方法不同,强化学习强调在面对动态环境时基于反馈机制进行学习和优化。智能体通过与环境的交互,通过试错学习来获取最佳行为策略。 该书首先介绍了强化学习的基本概念,包括马尔可夫决策过程、值函数、策略和模型等。然后详细介绍了著名的强化学习算法,如蒙特卡洛方法、时序差分学习、动态规划等。这些算法通过不同的方式来优化智能体的策略或值函数,以实现最优决策。 此外,书中还对探索与利用、函数近似、策略梯度和深度强化学习等重要主题进行了深入讨论。这些主题对了解和解决实际应用中的强化学习问题非常重要。 《强化学习导论》还涵盖了一些实际应用,如机器学习、人工智能领域的自适应控制、机器人学、游戏和金融等。这些实际应用案例有助于读者将强化学习的概念和算法应用于实际问题,并了解其在不同领域的应用情况。 总的来说,《强化学习导论》是学习和了解强化学习领域必不可少的一本书。它详细介绍了强化学习的基本概念、算法和应用,并通过实际案例帮助读者更好地理解和应用强化学习。无论是对学术研究者还是工程师来说,这本书都是一份极具价值的参考资料。 ### 回答2: 《强化学习简介》是Richard S. Sutton和Andrew G. Barto编写的一本经典教材,旨在介绍强化学习的基本理论和方法。本书详细阐述了强化学习中的关键概念,包括马尔可夫决策过程(MDP),值函数、动作值函数和策略等。 在《强化学习简介》中,作者首先介绍了强化学习的背景和定义,并提出了马尔可夫决策过程作为强化学习问题建模的基础。马尔可夫决策过程包括状态、动作、奖励和转移概率这四个主要要素,通过定义系统状态空间、动作空间、奖励函数和状态转移概率函数,可以将强化学习问题转化为一个数学模型。 书中还介绍了强化学习的两种核心学习方法:值函数学习和策略搜索。值函数学习通过估计状态或状态-动作对的值函数,来指导智能体在不同状态下采取最优动作,并通过迭代更新值函数来提高策略的质量。策略搜索则是直接搜索和优化策略本身,通过改进策略来达到最优操作。 此外,本书还介绍了重要的强化学习算法,包括Temporal Difference Learning(TD-Learning)、Q-Learning和策略梯度方法等。这些算法通过巧妙地利用奖励信号和经验数据,来指导智能体学习最佳策略。 《强化学习简介》不仅深入浅出地介绍了强化学习的基本概念和方法,还提供了大量的实例和案例分析,帮助读者更好地理解和应用强化学习。无论是对强化学习感兴趣的研究人员、学生,还是从业者,这本书都是一本不可或缺的参考读物。 ### 回答3: 《强化学习导论》是一本介绍强化学习的重要著作。该书由Richard S. Sutton和Andrew G. Barto合著,共分为十章,全面介绍了强化学习的概念、方法和应用。 在书中,作者首先介绍了强化学习的基本概念,包括马尔科夫决策过程(MDP),状态、动作和奖励的定义以及强化学习中的基本问题,如策略选择和价值函数估计。 接下来,书中介绍了各种强化学习算法,包括值迭代、策略迭代和蒙特卡洛方法等。这些算法分别用于解决不同类型的强化学习问题,如预测、控制和学习价值函数。 此外,书中还介绍了基于模型的强化学习方法,如动态规划和强化学习中的基于模型的规划。这些方法利用对环境的模型进行规划,以改进策略和价值函数的学习效果。 在进一步讨论强化学习的高级主题时,作者介绍了函数逼近和深度强化学习。这些技术允许在复杂环境中处理高维状态和动作空间,并在估计价值函数和优化策略方面取得更好的性能。 最后,书中还包括了对强化学习的应用领域的概述,包括游戏、机器人和交通等。这些应用展示了强化学习在解决实际问题中的潜力和成功案例。 总的来说,《强化学习导论》全面而深入地介绍了强化学习的基本原理、算法和应用。它适合作为学习和研究强化学习的入门材料,并为读者提供了理解和掌握强化学习的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值