MDP 笔记:Value Iteration

本文介绍了ValueIteration算法,如何通过迭代Bellman最优方程逼近最佳策略,与PolicyIteration的两步过程——策略评估与改进进行对比。重点讲述了算法启动时的初始化和收敛过程,以及如何从价值函数导出最优策略。
摘要由CSDN通过智能技术生成

  Value Iteration 介绍

      在强化学习笔记: MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客中,我们知道,当整个状态收敛的时候,也就是已经达到最佳policy的时候,MDP会满足bellman optimality equation

        Value iteration 就是把 Bellman Optimality Equation 当成一个 update rule 来进行,如下式所示:

         

         之前我们说上面这个等式只有当整个 MDP 已经到达最佳的状态时才满足。

        但这里我们不停地去迭代 Bellman Optimality Equation,到了最后,它能逐渐趋向于最佳的策略,这是 value iteration 算法的精髓。

        

         这个算法开始的时候,它是先把所有值初始化,通过每一个状态,然后它会进行这个迭代。

        把等式 (22) 插到等式 (23) 里面,就是 Bellman optimality backup 的那个等式。

        有了等式 (22) 和等式 (23) 过后,然后进行不停地迭代,迭代过后,然后收敛,收敛后就会得到这个v∗

        当我们有了v∗ 过后,一个问题是如何进一步推算出它的最佳策略。

        提取最佳策略的话,我们可以直接用 arg max。就先把它的 Q 函数重构出来,重构出来过后,每一个列对应的最大的那个 action 就是它现在的最佳策略。这样就可以从最佳价值函数里面提取出最佳策略。

 2 对比 policy iteration 和 value iteration

这两个算法都可以解 MDP 的控制问题。

  • Policy Iteration 分两步,首先进行 policy evaluation,即对当前已经搜索到的策略函数进行一个估值。得到估值过后,进行 policy improvement,即把 Q 函数算出来,我们进一步进行改进,选取Q最大的策略。不断重复这两步,直到策略收敛。
  • Value iteration 直接把 Bellman Optimality Equation 拿进来,然后去寻找最佳的 value function,没有 policy function 在这里面。当算出 optimal value function 过后,我们再来提取最佳策略。(所以我策略在迭代的过程中是不变的)
  • 在Policy Iteration中
    • 第一步 Policy Eval:一直迭代至收敛,获得准确的V(s)
    • 第二步 Policy Improvement:根据准确的V(s),求解最好的Action
  • 对比之下,在Value Iteration中
    • 第一步 "Policy Eval":迭代只做一步,获得不太准确的V(s)
    • 第二步 "Policy Improvement":根据不太准确的V(s),求解最好的Action
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值