强化学习是基于与环境的交互来获取最佳策略。
本文将介绍几种基于某个状态下Q(a)值策略选择的方法。
Q(a)计算公式如下:
Qt(a)=r1+r2+……+rkaka
ri表示第i次action的reward,Qt(a)表示第t次action时a的estimated value,ka表示在t之前a共被选择ka次。
当选择次数足够多时Qt(a)将收敛于Q*(a),Q*(a)表示action a真正的action value。
为了简化问题,我们只考虑在一个状态下的情况,不考虑连续多个状态下action的选择。
选择action时的策略:
一、greedy method
每次选择estimated value 最高的action
缺点:可能会忽略潜在的可能表现得更好的action。
二、ε - greedy method
设置参数ε,每次选择action时,都有ε的几率随机选择一个action。
我们比较ε=0.1和0.01时的情况,当ε=0.1时,通常更早找到最优action,但是选择最优action的概率不会超过91%,当ε=0.01时,收敛较慢,但在average reward 和选择optimal action的概率上都优于0.1时。(可做实验验证)
三、Softmax Action Selection
每次选择action时,action被选择的概率为一个graded function,estimated value 最高的被选择的概率最高,其余被选择的概率随着estimated value降低而降低。
eQt(a)/τ∑nb=1eQt(a)/τ
我们选择Gibbs分布作为一个例子(当然可以选择其他分布),τ是一个正数参数,τ越大就越近似于等概率分布,而当τ趋近于0时,softmax action selection就变成了greedy action selection。
显然ε 值得设定更为容易,τ则需要考虑action value 的可能值与e指数的问题。
但关于ε - greedy method和Softmax Action Selection孰优孰劣并没有一个定论,需要根据具体情况来看,Reinforcement Learning需要的正是exploration和exploitation之间的平衡。