n-step Sarsa 与Sarsa-lambda
摘要:我看好像还少有吧这两个东东放在一起的,但是又感觉有什么相关的联系,最近刚好在学习,故作文以记之。
Q-Learning与Sarsa
都是时序差分算法,以Q表作为状态动作的价值评估。
Q-Learning中:在状态下执行动作进入到状态获得奖励
定义下执行的收益(价值)为
表格更新公式:
整理后为
Sarsa与QL的差异在于对于下执行的收益(价值)的定义不是下一个状态能得到的最值而是下一个状态实际的动作对应的价值。
也就是定义下执行的收益(价值)为
Sarsa中的更新公式整理后为
依据
原创
2021-04-05 10:52:21 ·
570 阅读 ·
0 评论