一、Sarsa算法
- TD只能估计state values
- Sarsa可以直接估计action values
- 也会用Sarsa找到最优策略
第一部分:给定策略的action values
假定已经有了经验,有trajectory
第二部分:寻找最优策略
二、Q-learning
区别只在用的是max
Q-learning求解贝尔曼最优方程
off-policy和on- policy
- behavior policy生成经验。
- target policy更新接近最优策略。
当这两种策略相同时是on-policy
off-policy优势:
如何判断:
例1:Sarsa on-policy
例2:MC on-policy
例3:Q-learning off-policy
和确定,那么和可以直接得到,不依赖任何策略。
on-policy版本:
off-policy版本: