第二章:多臂老虎机
把强化学习和其它类型的机器学习区分出来的一大特征就是,强化学习利用的是评估动作的训练数据而非指导哪个动作是正确的数据。纯评估反馈是指只评价动作的好坏程度而不是评价动作是不是最好的。纯指导反馈是直接给出哪个动作是最优的。指导反馈是监督学习的基础。
这一章学习评估反馈的简单形式,一个无关联设定的问题。学习这个例子可以清楚看到评估反馈和指导反馈的区别,并且怎么组合起来他们。这个例子就是一个多臂老虎机。
2.1 A k-armed Bandit Problem
有一个老虎机,有k个按钮,每次选一个按钮,选完之后会得到一个数字反馈。你的任务是最大化1000次选择后的总反馈。在这个问题里,每一个按钮都有一个固定的期望反馈, 。尽管可以估计每个动作的反馈期望,但是无法知道确切值。使用估计值
来逼近期望值。
如果记下了每个动作的估计值,那么每次采取动作的时候就一定有一个估计值最大的动作,这个动作叫greedy动作。如果采取这个最大的动作就叫做exploit,否则就叫explore。如果后面还有很多步动作,那么采用explore去探求更多动作来找出最大反馈可能相对于一直采取当前最大值更好一点。使用explore短期内得到的reward会下降,但是长期看会更好。所以如何选择exploit和explore是一个矛盾。
有很多平衡explore和exploit的方法,但是大多数都做出很多强假设和很多先验知识,因此无法用到后面要讲的强化学习问题中。这本书里不讲如何复杂地平衡它们,我们只会关注平衡本身。
2.2 Action-value Methods
我们把估计每个动作反馈值并把这个值用来做动作选择的方法叫做action-value法。这个动作的值指的是动作被选择时候的平均值。很自然地想到一个方法就是不加权的平均即,其中
表示如果下标为真则值为1,否则为0。如果分母是0,那么Q定义为初始值,比如0。根据大数定律
收敛至
。这个方法也叫采样平均。
greedy动作也就是当前Q值最大的动作,即
如果采取greedy动作,那么就不会去估计其它动作的值,也就没法知道是否还有更好的动作。一个取代方法是的概率去采用其它方法,而1-
的概率去采取greedy动作。这个方法叫做
-greedy法。这个方法的好处是随着动作步骤的增加,每个动作都能够得到采样和估计,因