强化学习原著翻译Chapter_2

多臂摇奖机

强化学习最重要的特征是它利用训练信息去评估执行的动作而不是通过正确的动作教育怎么执行动作。这是创造积极探索的需要,以明确寻找良好的行为。纯粹的评估反馈指示了执行动作的好处,但是并没有显示这个动作是好的还是坏的的可能性。另一方面,存粹的教育反馈指示了去执行正确的行为。独立与实际是否执行行为。这种反馈是监督学习的基础,包含了模式识别,人工神经网络和系统辨识的很大部分。在他们最简化的形式中,这两种反馈有很明显的区别:评估反馈完全依赖于采取的动作,而教育性反馈独立于采取的动作。
在这个单元,我们研究强化学习评估部分在一个基本假设下:一个不涉及学习再多于一种情况下的行为。这个非关联设置是很多先验工作涉及到评估反馈必须做的,这会避免很多完全强化学习中的复杂问题。学习这个案例,会让我们更清楚评估反馈和教育反馈的相关性和不同性。
这个特定的非关联性,评估反馈问题我们也就的是K-臂摇奖机最简单的版本。我们用这个问题去介绍很多基础的学习算法在接下来的章节中我们用于完整的强化学习问题的解决。在本章最后的部分,我们进一步通过讨论当摇奖机问题具有关联性(一个动作在不同状态下执行),来靠近最完整的强化学习问题。

2.1 k-臂摇奖机问题

思考以下学习问题,你需要快速的面对一个选择在k个不同的选项或者行为。在每个选项后面你会获得一个数值型的奖励(满足平稳概率分布,这依赖于你选择的动作)。你的目标是最大化期望的累计回报在一段时间里。例如,超过1000个动作选择后或者一个时间步长。
这是一个k-摇奖机的原始形式,通过类比老虎机来命名或者一个单臂摇奖机,除了有k个水平而不是一个。每一个动作的选择就像是玩一个老虎机并且奖励就是赢得大奖的收益。通过重复动作的选择你需要去最大化你的胜利通过集中你的行为在一个最好的水平。另一个比喻:一个医生在很多为很多病人治疗的手术方案中选择。每一个行为就是选择一个治疗方案,奖励就是病人的康复程度。今天,摇奖机的模型用来概括上述的问题,但是在这本书,我们只用来描述这个简单的案例。
在我们的k-臂摇奖机问题中,每一个k个动作都有期望的或者一个平均的奖励当这个动作被选择后。我们描述这个是动作的值。我们用At表示每一个时间步长中被选择的动作,用Rt表示相关联的奖励。期望的行为值用q*(a)表示:这里写图片描述如果你知道每一个动作对应的值,那就没有必要去解决这个问题:你可能总会去选择最高值的动作。我们假设你并不知道行为对应的确切的值,尽管你可能有评估。我们用Qt(a)表示每一个时间步长里采取的动作的评估值,我们希望Qt(a)能够逼近q*(a)。如果你持续评估这个行为的值,在任何时间步长里,至少有一个行为被认为是值最高的行为,我们称为贪婪策略。当你选择这些行为中的一个的时候,我们认为你在利用当前的行为值的知识。如果,你选择了一个非贪婪的行为,我们就成为探索,因为这会确保你可以去发展你对行为值的评估。利用是最大化期望的回报在一个步长里,但是探索可以产生更好的回报在一个很长的过程里。例如,假设一个贪婪行为的值都是确定的,然而其他行为估计的值可能是好的但是都不确定。这些不确定导致了可能这些行为会比贪婪行为要更好但是你却不知道是哪一个。如果你有足够的步长向前去选择行为,这将会很好的探索这些非贪婪行为并且发现他们哪一个比贪婪行为要好。在探索期,奖励在很小的范围内将会很小,但是在一个很长的时间段内将会很高在你发现更好的行为之后,你可以利用它们很多。因为不可能在任何一个单一行为选择之后即探索又利用,所以人们经常指出这是探索和利用之间的冲突。
在任何具体的例子中,探索还是利用的好处取决于估计精确值的复杂性,不确定性和剩余的步长数量。有许多复杂的方法来平衡探索和开采针对k-臂摇奖机和相关问题的特定数学公式。然而,这些方法中的大多数都对平稳性和先验知识做出了强有力的假设,这些假设在应用程序中被违反或无法验证,并且在后面的章节中考虑到了全面的强化学习问题。当这些方法的假设不适用时,这些方法的最优性或有界损失的保证是没有多少适用性的。
在本书中,我们并不担心以复杂的方式平衡探索和利用。 我们只担心平衡他们。 在本章中,我们针对k-臂问题提出了几种简单的平衡方法,并表明它们比始终利用的方法要好得多。平衡探索和利用的需求是强化学习中产生的一个独特挑战; 我们版本的K臂问题的简单性使我们能够以一种特别明确的形式展示这一点。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值