Reinforcement Learning——Different Policies

强化学习是基于与环境的交互来获取最佳策略。
本文将介绍几种基于某个状态下Q(a)值策略选择的方法。
Q(a)计算公式如下:

Qt(a)=r1+r2++rkaka

ri表示第i次action的reward,Qt(a)表示第t次action时a的estimated value,ka表示在t之前a共被选择ka次。
当选择次数足够多时Qt(a)将收敛于Q*(a),Q*(a)表示action a真正的action value。

为了简化问题,我们只考虑在一个状态下的情况,不考虑连续多个状态下action的选择。

选择action时的策略:

一、greedy method

每次选择estimated value 最高的action
缺点:可能会忽略潜在的可能表现得更好的action。

二、ε - greedy method

设置参数ε,每次选择action时,都有ε的几率随机选择一个action。
我们比较ε=0.1和0.01时的情况,当ε=0.1时,通常更早找到最优action,但是选择最优action的概率不会超过91%,当ε=0.01时,收敛较慢,但在average reward 和选择optimal action的概率上都优于0.1时。(可做实验验证)

三、Softmax Action Selection

每次选择action时,action被选择的概率为一个graded function,estimated value 最高的被选择的概率最高,其余被选择的概率随着estimated value降低而降低。

eQt(a)/τnb=1eQt(a)/τ

我们选择Gibbs分布作为一个例子(当然可以选择其他分布),τ是一个正数参数,τ越大就越近似于等概率分布,而当τ趋近于0时,softmax action selection就变成了greedy action selection。

显然ε 值得设定更为容易,τ则需要考虑action value 的可能值与e指数的问题。
但关于ε - greedy method和Softmax Action Selection孰优孰劣并没有一个定论,需要根据具体情况来看,Reinforcement Learning需要的正是exploration和exploitation之间的平衡。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值