一、前言
强化学习系列(一):强化学习简介中我们介绍了强化学习的基本思想,和工作过程,我们提到了强化学习的一大矛盾:平衡Exploration and Exploitation。本章我们以Multi-armed Bandits(多臂老虎机问题)为例子,简单介绍一下针对该问题的Exploration and Exploitation平衡方法。
二、问题描述
想想一下你可以重复一个选择过程,每次有k个选项或动作可供选择,每次选择一个动作后会获得相应的奖励。你的目标是为了最大化k次后的奖励。这个抽象模型缘起与赌场中的Multi-armed bandits(多臂老虎机),其中 arm 指的是老虎机(slot machine)的拉杆,bandit 是多个拉杆的集合 bandit=arm1,arm2,……,armk b a n d i t = a r m 1 , a r m 2 , … … , a r m k 。
假设 t 时刻我们选择动作为 At A t , 对应的奖励为 Rt R t , 则 t 时刻的任意action a 的期望奖励(value)可以表示为
q∗(a)=E[Rt|At=a] q ∗ ( a ) = E [ R t | A t = a ]
如果我们知道每个action对应的value,那么我们只需要每次都选择最高的那个value对应的action即可,但事实却是我们在玩老虎机之前,不知道每个action确切的value,我们可以通过多次测试来估计每个action的value,将t 时刻的action a对应的估计价值(estimated value) 记作 Qt(a) Q t ( a ) ,我们的目标是使得 Qt(a) Q t ( a ) 尽可能的接近 q∗(a) q ∗ ( a ) ,然后根据 Qt(a) Q t ( a ) 选择 a.
三、Action-value function
3.1 sample-average方法
最简单的value 估计方式就是sample-average(采样平均),即
Qt(a)≐sum of rewards when a taken prior to tnumb