强化学习导论第二章多臂赌博机问题

最新推荐文章于 2023-03-21 20:15:00 发布

像我这样迷茫的人

最新推荐文章于 2023-03-21 20:15:00 发布

阅读量1.2k

点赞数 3

分类专栏：强化学习

本文链接：https://blog.csdn.net/qq_34662278/article/details/83751306

版权

区分强化学习和其他种类的学习方式最显著的特点是：在强化学习中，训练信息被用于评估动作的好坏，而不是用于指导到底该是什么动作。这也是为何需要主动去做exploration的原因。纯粹的评估性反馈可以表明一个动作的好坏、但并不能知道当前动作是否是最佳选择或者是最差选择。评估性反馈（包括evoluationary method）是方程优化的基础。相对的，纯粹的指导性反馈，表明了当前的最优动作，这个最优动作是独立于实际采取的动作的。这种反馈形式是监督学习的基础，被用于模式识别、人工神经网络等方面。当然了，也有一些交叉案例中，这两种反馈形式同时使用。

这一章主要在一种简单的情境下研究强化学习的这种反馈形式，这种简单情形只包含一个环境状态，这样能避免完整的强化学习问题的很多复杂方面，从而专注于研究evaluative feedback 和instuctive feedback的不同，以及如何对两者进行结合使用。

这个简单的案例叫做多臂赌博机问题。我们用这个案例来学习一些强化学习中的基本学习方法，在这章末尾，我们会讨论一下当环境状态不止一个时，多臂赌博机的学习问题会是什么样子。

2.1 n-armed bandit problem:

这里稍微描述一下多臂赌博机这个概念。赌博机，也可以想象成老虎机，现在我有n台老虎机，每台有一个臂（也就是杠杆）我可以通过拉动这个臂来获得这台老虎机的reward，但是每台赌博机的这个reward是按照一定的概率分布的，因此有上下浮动，不是固定不变的。现在呢，我需要解决的问题就是最大限度地通过杠杆拉动序列，使得获得的奖励最大。这个序列的次数是任意的。

对于每台老虎机的臂，都有一个期望reward，也就是我们之前说的value。当然这个value的数值之前肯定是不知道的，不然这个问题就没有意义了。然而我们可以大概估计这个value值。

如果我们保持我们的这种value估计，那么在每次选择动作之前肯定至少有一个臂的value是最大的。如果我们每次都选这个最大的value值的臂，那么这就是贪婪动作。如果我们每次都采取贪婪选择，那我们就是在exploiting。如果我们每次不这么干，而是有时去选一些非贪婪选择的臂，那么我们就是在exploring（探索），因为这样我们就能改进对其他臂value信息的估计。exploitation当然是正确的，因为它是当前这一步的最优选择，然而exploration也许会帮助我们在长远的序列中得到更大的total reward。比如：假设每次做选择的时候，贪婪选项的value是可以确定的，但是非贪婪选项的value值带有一定的不确定性。这种不确定性的意思是，有可能个别的非贪婪选项的value会好于贪婪选项的value，但是不确定是哪个。这样的情况下，适当的exploration有助于帮我们找到可能存在的比贪婪选项更好的那个选择。可能在短期内reward比较低，然而一旦找到了，我们就可以反复选择（exploit）那个之前被认为非贪婪的选项，从而使得长期reward总和较高。

在特定的情形下，是exploiting还是exploring取决于很多因素。比如value估计值的精确程度、非贪婪值的不确定性或者是剩余的选择机会等等。有很多复杂的方法来平衡这两者的选择，然而大多数这样的方法都有很强的假设前提或者先验知识，而这些前提条件在很多的实际强化学习问题中是不能被保证的。当这些假设前提不被保证时，这些方法的效果也就不那么出色了。

在这一章，我们不必去用复杂的方法把exploiting和exploring之间平衡的那么好，而只是单纯的去平衡就好了。我们会用几种简单的方法去实现两者间的平衡，并表明平衡之后的学习效果要好于一味的exploiting。

2.2 action-value method:

首先，我们先来仔细的做一下value的估计。我们把每个action的真实value定义为 $q_{*} (a)$ ，把每个action在第t个时间步下的估计值定义为 $Q_{t}(a)$ 。之前我们提到过，每个action的真实value，是当该动作被选择时所获得的期望reward，在这里，我们自然想到用最简洁的历史平均reward来表示当前动作的value估计值。假定某个action在t时间前总共被选择了 $K_{a}$ 次，于是我们的估计值如下式：