强化学习导论(Reinforcement Learning:An Introduction)学习笔记(一)

Introduction

​ 我们在思考学习本质时首先想到的可能就是通过与我们的环境进行交互从而学习。当一个婴儿玩耍时,挥动着他的手臂,虽然看起来,他没有明确的老师,但他确实与他的环境有直接的感觉联系。并且这种联系可以产生大量关于因果,行为后果以及为了实现一个目标我们要做什么等信息。在我们的整个生活中,这种交互无疑是我们了解环境和自己的主要知识来源。无论我们是在学习驾驶汽车还是进行对话,我们都非常清楚我们的环境如何回应我们的行为,并且我们试图通过我们的行为影响接下来可能发生的事情。从互动中学习是几乎所有学习和智能的基础。在本书中,我们探讨了一种从互动中学习的计算方法。而不是直接理论化人或动物如何学习,我们探索理想化的学习情境并评估各种学习方法的有效性。也就是说,我们采用人工智能研究员或工程师的观点。我们探索有效解决科学或经济利益学习问题的机器设计,通过数学分析或计算实验评估设计。我们探索的方法称为强化学习,比其他机器学习方法更注重于交互式目标学习。

1.1 强化学习

​ 强化学习是学习怎么做 — 如何将情境映射到行为 — 最大化数字奖励信号。 学习者是不会被告知要采取什么行动的,而是必须通过尝试从而发现哪些行为会产生最大的回报。 在大多数有趣和挑战性的案例中,行动不仅可以影响直接奖励,还可以影响下一个情况,并通过这些影响获得所有后续奖励。 这两个特点 — 试错法搜索和延迟奖励 — 而这两个特点便是强化学习最重要的东西。

​ 强化学习与许多名称以“ing”结尾的主题一样,例如机器学习(machine learning)和登山(mountaineering,),同时是一个问题,一类解决问题的解决方法,以及研究这些问题及其解决方法的领域。 为所有三件事情使用单一名称是方便的,但同时必须保持三者在概念上的分离。 特别是,问题和解决方法之间的区别在强化学习中非常重要;没有做出这种区分是许多混乱的根源!

​ 我们用动态系统理论的思想来具体地研究强化学习问题,具体地说,是不完全已知的马尔可夫决策过程的最大化方法(the optimal control of incompletely-known Markov decision processes)。而具体的细节必须等到第3章再详细讲解,但基本思想是找到智能体在时间和环境交互作用下实现目标的实际问题的最重要的方面。智能体( learning agent)必须能够在一定程度上感知其环境的状态,并且可以通过行动影响这些状态。智能体必须有与环境状况有关的一个或多个目标。马尔可夫的决策过程(Markov decision processes)倾向于只包括—感知、动作、目标—这三个部分的最简形式且不忽视任一方面。任何适合解决此类问题的方法,我们都认为是一种强化学习方法。

三者之间的关系

强化学习不同于有监督学习。有监督学习是目前机器学习领域中研究最多的一种学习方式,它从知识渊博的教练所提供的有标记的训练集中学习。每一个例子都由一个情景和系统应采取的正确行动(标签给出)组成,它通常能标识该情况所属类别。这种学习的目的是让系统推断或概括它应有的反馈机制,使它可以对未知样本作出正确回应。这是一种重要的学习方式,但它还不足以从交互中学习。在交互问题中,找到期待的既正确又典型的例子通常都是不切实际的。在一个未知的领域,如果我们要使收益最大化,智能体必须能够从自己的经验中学习。

强化学习也不同于机器学习者所说的无监督学习,无监督学习通常是寻找未标记数据集合中隐藏的结构。术语监督学习和无监督学习似乎可以囊括机器学习的全部模式(paradigms),但他们没有。虽然有人可能会认为强化学习是一种无监督学习,因为它不依赖于带标记样本,强化学习正试图最大化收益信号,而不是试图寻找隐藏的结构。一个代理的经验中如果能具有被发现的结构(Uncovering structure)对强化学习肯定是有益的,但其本身并没有解决强化学习要最大化收益信号的问题。因此,我们认为强化学习是机器学习的第三种模式,除此之外还有监督学习和无监督学习,也许还有其他模式。

​ 在强化学习中出现了其他类型的学习中未出现的挑战——如何权衡探索与开发之间的关系。为了获得大量的收益,强化学习代理必须倾向于过去已经尝试过并且能够有效获益的行动(a reinforcement learning agent must prefer actions that it has tried in the past and found to be effective in producing reward)。但是要发现这样的行为,它必须尝试它以前没有选择的行为。智能体必须充分利用它既有经验以获得收益,但它也必须探索,以便在未来做出更好的行动选择。进退两难的是,无论是专一探索还是开发,都难以避免失败。代理人必须尝试各种各样的行动,逐步地选择那些看起来最好的行动。在一个随机任务上,每一个动作必须经过多次尝试才能得到可靠的预期收益。探索开发困境(exploration–exploitation dilemma)几十年来一直受到数学家们的深入研究,但仍未解决。现在,我们只是注意到,在监督和无监督的学习中,至少在最纯粹的形式中,完全平衡探索和开发的项目(issue)尚未出现。

​ 强化学习的另一个关键特征是,它明确地考虑了目标导向代理与不确定的环境相互作用的整个问题。这与许多考虑子问题而没有解决它们如何融入更大的图景的方法相反。例如,我们已经提到过很多机器学习研究关注的是有监督学习而没有明确说明这种能力最终如何有用。其他研究人员已经提出了具有一般性目标的理论,但没有考虑在实时决策中规划的作用,或规划所需的预测模型来自何处的问题。尽管这些方法产生了许多有用的结果,但它们一个重要的限制在于过于关注孤立子问题。

​ 强化学习采取相反的策略,它具有一个完整的、交互式的、寻求目标的代理。所有强化学习代理都有明确的目标,能够感知环境的各个方面,并可以选择影响其环境的行为。此外,通常从一开始就假定代理必须得操作,尽管它面临的环境有很大的不确定性。当强化学习涉及到规划时,它必须解决计划和实时行动选择之间的相互作用,以及如何获得环境模型和改进环境模型的问题。当强化学习涉及到有监督学习时,它要确定决定哪些能力是关键的,哪些是不重要的原因( it does so for specific reasons that determine which capabilities are critical and which are not)。为了使学习研究取得进展,必须对重要子问题进行隔离和研究,但它们应该是在完全、交互式、寻求目标的代理中有明确功能的子问题,即使不能体现所有完整的细节。

​ 一个完整的,交互式的,目标导向的代理,并不总是意味着像是一个完整的有机体或机器人。这里有许多明显的例子,但是一个完整的、交互式的、寻求目标的代理也可以是更大行为系统的一个组成部分。在这种情况下,代理直接与较大系统的其余部分交互,并间接与较大的系统环境交互。一个简单的例子是一个代理,监控机器人电池的充电水平,并将命令发送到机器人的控制架构。这个代理的环境是机器人的其余部分和机器人的环境。人们的眼光应超越代理及其环境最明显的例子,才能理解强化学习框架的一般性。

​ 强化学习最令人兴奋的方面之一是它与其他工程和科学学科的实质性和富有成效的互动。强化学习是人工智能和机器学习几十年来的一个趋势,它与统计学、最优化和其他数学学科更紧密地结合在一起。例如,某些强化学习学习参数的能力解决了运筹学与控制论中经典的“维数灾难(curse of dimensionality)”。更为明显的是,强化学习也与心理学和神经科学有着紧密的联系,两者都有巨大的益处。在机器学习的所有形式中,强化学习最接近于人类和其他动物所做的学习,而强化学习的许多核心算法最初是由生物学习系统启发的。强化学习也既通过动物学习的心理模型返回更符合经验数据的结果,并且通过一个有影响力的大脑收益系统模型反馈。本书的正文延展了强化学习涉及工程学与人工智能,和心理学与神经科学有关的概念,分别在第14章和第15章中总结。

​ 最后,强化学习也是人工智能向更简单的一般原则发展的一个大趋势中的一部分。自从20世纪60年代后期以来,许多人工智能研究人员推测没有一般的原则需要发现,而智能则是由于拥有大量特殊用途技巧,程序和启发式技术。有人说,如果我们能够在一台机器上获得足够的相关事实,例如一百万或十亿,那么它就会变得聪明起来。基于一般原理的方法,如搜索或学习,被称为“弱方法”,而基于特定知识的方法被称为“强方法”。这种观点在今天仍然很普遍,但并不占优势。从我们的观点来看,这只是一个不成熟的过程:寻找一般原则的努力太少,以至于没有结论。现代人工智能现在包括许多研究,寻找学习,搜索和决策的一般原则,并尝试纳入大量的领域知识。目前尚不清楚摆的摆动距离有多远,但强化学习研究无疑是摆脱人工智能更简单,更少一般原则的一部分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值