强化学习最重要的特点是利用训练信息来评估动作,而不是指出最优动作。这就要求需要探索(explore)多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度,但没有直接指出哪个动作是最好或最坏的;而后者可以指导处哪个动作是最好的,并且该指导反馈与已经发生的动作无关。这也是非监督学习(评价性反馈)与监督学习(指导性反馈)的区别。评价性反馈完全依赖于所选择的动作(即所产生的样本),而指导性反馈则与所选择的动作(即所产生的样本)无关。
因此,所有RL的算法思路都是为了评估一个动作的好坏,有的用Value,有的用策略梯度,异曲同工之妙。
在Sutton的RL入门经典书本中最先出现的强化学习问题叫Bandit,即在该问题中,只有一个state,经历完该state,该问题就结束了。k-armed Bandit则是在该state中有k个选择。每个动作选择都有即时回报R,但这个R不是一个确定值,是一个服从某种概率分布的随机值,我们可用R的期望来表示该动作的真实价值,记为q。但是,在实际问题中我们并不知道哪个选择的真实价值最大,因此我们可以利用大数定理,通过多次采样,利用 sample average的方法求得动作的估计值Q,用Q来逼近真实值q。这个过程称为探索(explore)。
Bandit问题根据动作的即时回报R的概率分布分为:
1. Stationary,即概率分布确定不变。
2. Nonstationary,即概率分布不确定。
对于Stationary