强化学习总结(3-4)
最近呢,搞完有模型的强化学习之后,接下来就开始搞无模型的强化学习,发现还是无模型的强化学习应用场景比较多,而且更加烧脑liaoer。
上面第一张图是我们的model-base RL,第二张图是我们的model-free RL,这里呢,可以看到model-base RL是没有和环境的一个交互,换句话说呢没有实际的交互,因为那个环境中的转移概率P我们是已知的,R也是已知的,我们只需要按照价值函数期望公式就能算出价值函数,以及optimal policy。然鹅,model-free RL它不知道P啊,它木得办法啊,它只能去交互,在实际操作中看看我各个状态间的转移概率是多些,转移的回报是多些。
无模型
预测价值函数
蒙特卡洛
所以,对于model-free的情况,它只能用蒙特卡洛的方法采样多个轨迹进行平均,才能得到价值函数啊。而我们的model-base用动态规划预测,它就不用了采样了啊,因为它都知道各个状态的转移情况也就是模型,所以能遍历所有的状态和动作。
时序差分(TD)学习
这里呢,和蒙特卡洛类似,只不过它是走m步(获得m个R)就更更新一下当前状态的价值函数,通过不停地迭代和bootsrapping,达到一个收敛状态,我们就说ok了,价值函数找到了。
下面就是两个的区别,翠花~,上酸。。图:
此前的内容都是value-base RL学派的内容,接下来讨论policy-base Rl学派的内容。