强化学习浅析一

一、强化学习是闭环问题

        强化学习与许多英文名称以ing结尾的动名词一样,如机器学习、计划和登山,因为它是对这一类在该类问题上有效的解决方法,以及研究这些问题及其解决方法的领域。强化学习问题包括学习该做什么——如何将情况映射到行动——从而最大限度地提高数字奖励信号。从本质上讲,它们是闭环问题,因为学习系统的行为会影响其后期输入。此外,在许多形式的机器学习中,学习者并没有被告知要采取哪些行动,而是必须通过尝试来发现哪些行动产生的回报最大。在最有趣和最具挑战性的情况下,行动不仅会影响即时奖励,还会影响下一种情况,并通过这种情况影响所有后续奖励。这三个特征——以一种基本的方式闭环,没有关于采取什么行动的直接指示,以及行动的后果(包括奖励信号)在长时间内的表现——是强化学习问题最重要的三个区别特征。

        在马尔可夫决策过程的最优控制方面,强化学习问题基本思想只是捕捉学习主体与环境交互以实现目标所面临的真实问题的最重要方面。显然,这样的代理人必须能够在某种程度上感知环境的状态,并且必须能够采取影响状态的行动。代理人还必须有一个或多个与环境状态有关的目标。该公式旨在以最简单的形式包括这三个方面——感觉、动作和目标——而不轻视其中的任何一个。

二、与监督学习、无监督学习区别和联系

        任何非常适合解决这类问题的方法,我们都认为是强化学习方法。强化学习不同于监督学习,监督学习是机器学习领域最新研究的一种学习。监督学习是从一个有知识的外部主管提供的一组标记的例子中学习。每个例子都是对一种情况的描述,以及系统应该对该情况采取的正确行动的规范——标签,用于识别该情况所属的类别。这种学习的目的是让系统推断或概括其响应,以便在训练集中不存在的情况下正确行动。这是一种重要的学习方式,但仅凭它不足以从互动中学习。在交互式问题中,获取示例往往不切实际,所期望的行为既正确又能代表代理人必须采取行动的所有情况。在未知的领域——人们期望学习是最有益的——代理人必须能够从自己的经验中学习。

        强化学习也不同于机器学习搜索者所说的无监督学习,无监督学习通常是关于发现隐藏在未标记数据集合中的真相。监督学习和无监督学习这两个术语似乎对机器学习范式进行了详尽的分类,但事实并非如此。尽管人们可能会把强化学习视为一种无监督的学习,因为它不依赖于正确行为的例子,但强化学习是试图最大化奖励信号,而不是试图找到隐藏的结构。揭示主体经验中的结构在强化学习中肯定是有用的,但其本身并不能解决强化学习主体最大化奖励信号的问题。因此,我们认为强化学习是第三种机器学习范式,与监督学习、非监督学习以及其他范式并列。

三、探索与利用之间的权衡

        强化学习所面临的,不是其他类型的学习所面临的挑战之一是探索和利用之间的权衡。为了获得大量的奖励,强化学习主体必须更喜欢它过去尝试过并发现在产生奖励方面有效的动作。但要发现这样的行为,它必须尝试以前没有选择过的行为。代理人必须利用其已经知道的信息来获得奖励,但也必须进行探索,以便在未来做出更好的行动选择。困境在于,无论是勘探还是开采,都不可能完全不失败地完成任务。代理人必须尝试各种各样的行动,并逐渐倾向于那些看起来最好的行动。在随机任务中,每个动作都必须尝试多次,才能获得可靠的估计——它的预期回报。几十年来,数学家们一直在深入研究探索-开发困境。目前,我们只是注意到,平衡探索和利用的整个问题甚至没有出现在有监督和无监督的学习中,至少在它们的纯粹形式中是这样。

四、环境不确定性的影响

        强化学习的另一个关键特征是,它明确地考虑了目标导向的主体与不确定环境交互的整个问题。这与许多方法形成了鲜明对比,这些方法考虑子问题而没有解决它们如何融入更大的图景。例如,我们已经提到,许多机器学习研究都与监督学习有关,但没有明确说明这种能力最终会如何有用。其他研究人员开发了具有一般目标的规划理论,但没有考虑规划在实时决策中的作用,也没有考虑规划所需的预测模型来自哪里的问题。尽管这些方法已经产生了许多有用的结果,但它们对孤立子问题的关注是一个显著的限制。

        强化学习采取相反的策略,从一个完整的、互动的、寻求目标的代理开始。所有强化学习主体都有明确的目标,可以感知环境的各个方面,并可以选择影响环境的行动。此外,通常从一开始就认为,尽管代理所面临的环境存在很大的不确定性,但它必须进行操作。当强化学习涉及规划时,它必须解决规划和实时行动选择之间的相互作用,以及如何获取和改进环境模型的问题。当强化学习涉及监督学习时,它这样做是出于特定的原因,这些原因决定了哪些能力是关键的,哪些不是。为了使学习研究取得进展,必须孤立和研究重要的子问题,但它们应该是在完整的、交互式的、寻求目标的代理中发挥明确作用的子问题——即使还不能填写完整代理的所有细节。

五、广泛应用前景

        现代强化学习最令人兴奋的方面之一是它与其他工程和科学学科的实质性和富有成效的互动。强化学习是人工智能和机器学习几十年来与统计学、优化和其他数学学科进一步融合的趋势的一部分。例如,一些强化学习方法使用参数化逼近器进行学习的能力解决了运筹学和控制理论中的经典“维度诅咒”。更明显的是,强化学习还与心理学和神经科学产生了强烈的互动,两者都有很大的好处。在所有形式的机器学习中,强化学习最接近人类和其他动物所做的那种学习,而强化学习的许多核心算法最初都受到生物学习系统的启发。强化学习也得到了回报,既通过与一些经验数据更好匹配的动物学习心理模型,也通过大脑奖励系统部分的有影响力的模型。本书的主体发展了与工程和人工智能相关的强化学习思想,并与心理学和神经科学相联系。最后,强化学习也是人工智能的趋势。自20世纪60年代末以来,许多人工智能研究人员认为,没有可以发现的一般原理,相反,智能是由于拥有大量特殊目的的技巧、程序和启发式方法。有时有人说,如果我们能把足够多的相关事实输入一台机器,比如一百万或十亿,那么它就会变得智能。基于一般原则的方法,如搜索或学习,被称为“弱方法”,而基于特定知识的方法被称为为“强方法”。这种观点在今天仍然很常见,但已不再占主导地位。从我们的角度来看,现在还为时过早:在寻求一般原则方面投入的努力太少,以至于得出没有一般原则的结论。现代人工智能现在包括许多寻找学习、搜索和决策的一般原则的研究,以及试图整合大量领域知识的研究。目前尚不清楚钟摆会摆动多远,但强化学习研究肯定是向更简单、更少的人工智能一般原理摆动的一部分。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Older司机渣渣威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值