摘要:我看好像还少有吧这两个东东放在一起的,但是又感觉有什么相关的联系,最近刚好在学习,故作文以记之。
Q-Learning与Sarsa
都是时序差分算法,以Q表作为状态动作的价值评估。
Q-Learning中:在状态下执行
动作进入到状态
获得奖励
定义下执行
的收益(价值)为
表格更新公式:
整理后为
Sarsa与QL的差异在于对于下执行
的收益(价值)的定义不是下一个状态能得到的最值而是下一个状态实际的动作对应的价值
。
也就是定义下执行
的收益(价值)为
摘要:我看好像还少有吧这两个东东放在一起的,但是又感觉有什么相关的联系,最近刚好在学习,故作文以记之。
都是时序差分算法,以Q表作为状态动作的价值评估。
Q-Learning中:在状态下执行
动作进入到状态
获得奖励
定义下执行
的收益(价值)为
表格更新公式:
整理后为
Sarsa与QL的差异在于对于下执行
的收益(价值)的定义不是下一个状态能得到的最值而是下一个状态实际的动作对应的价值
。
也就是定义下执行
的收益(价值)为