强化学习笔记: generalized policy iteration with MC

强化学习笔记: MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客

强化学习笔记:Q-learning_UQI-LIUWJ的博客-CSDN博客

        在policy iteration中,我们根据给定的当前的 policy π 来估计价值函数;得到估计的价值函数后,通过 greedy 的方法来改进它的算法。

        但是对于model-free 的MDP,我们并不知道它的奖励函数和状态转移,所以就没法估计它的Q函数。

1广义policy iteration

针对上述情况,我们引入了广义的 policy iteration 的方法。

我们对 policy evaluation 部分进行修改:用 MC 的方法代替 DP 的方法去估计 Q 函数。 

 算法通过 MC 的方法产生了很多的轨迹,每个轨迹都可以算出它的价值。然后,我们可以通过 average 的方法去估计 Q 函数。

当得到 Q 函数后,就可以通过 greedy 的方法去改进它。

1.1 MC with ε-Greedy Exploration

1.1.1 ε-greedy

 

        为了确保 MC 方法能够有足够的探索,我们使用了 ε-greedy exploration。

        ε-greedy 的意思是说,我们有1−ε 的概率会按照 Q-function最大来决定 action,通常ε 就设一个很小的值, 比如1−ε 可能是 90%,也就是 90% 的概率会按照 Q-function最大 来决定 action(exploitation),但是你有 10% 的机率是随机的(exploration)。

        通常在实现上ε 会随着时间递减。在最开始的时候。因为还不知道那个 action 是比较好的,所以你会花比较大的力气在做 exploration。

        接下来随着训练的次数越来越多。已经比较确定说哪一个 Q 是比较好的。你就会减少你的 exploration,你会把ε 的值变小,主要根据 Q-function最大来决定你的 action,比较少做 random,这是ε-greedy。

1.1.2 MC with ε-Greedy Exploration

 可以看出来,和强化学习笔记:Q-learning_UQI-LIUWJ的博客-CSDN博客 中的MC没有太大的区别,唯一区别就是episode怎么采样的问题

1.1.3  策略提升定理

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值