n-step Sarsa 与Sarsa-lambda

最新推荐文章于 2023-12-13 23:52:57 发布

M_H5211

最新推荐文章于 2023-12-13 23:52:57 发布

阅读量576

点赞数

分类专栏：强化学习文章标签： RL Q-Learning Sarsa N-step Sarsa Sarsa-lambda

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m_h5211/article/details/115402536

版权

摘要：我看好像还少有吧这两个东东放在一起的，但是又感觉有什么相关的联系，最近刚好在学习，故作文以记之。

Q-Learning与Sarsa

都是时序差分算法，以Q表作为状态动作的价值评估。

Q-Learning中：在 $s$ 状态下执行 $a$ 动作进入到状态 $s'$ 获得奖励 $r$

定义 $s$ 下执行 $a$ 的收益（价值）为 $G=r+\gamma*maxQ(s',\cdot )$

表格更新公式： $Q(s,a)\leftarrow Q(s,a)+\alpha*[G-Q(s,a)]$

整理后为 $Q(s,a)\leftarrow Q(s,a)+\alpha*[r+\gamma*maxQ(s',\cdot )-Q(s,a)]$

Sarsa与QL的差异在于对于 $s$ 下执行 $a$ 的收益（价值）的定义不是下一个状态能得到的最值而是下一个状态实际的动作对应的价值 $Q(s',a')$ 。

也就是定义 $s$ 下执行 $a$ 的收益（价值）为 $G=r+\gamma*Q(s',a')$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
n-step Sarsa 与Sarsa-lambda

摘要：我看好像还少有吧这两个东东放在一起的，但是又感觉有什么相关的联系，最近刚好在学习，故作文以记之。Q-Learning与Sarsa都是时序差分算法，以Q表作为状态动作的价值评估。Q-Learning中：在状态下执行动作进入到状态获得奖励定义下执行的收益（价值）为表格更新公式：整理后为Sarsa与QL的差异在于对于下执行的收益（价值）的定义不是下一个状态能得到的最值而是下一个状态实际的动作对应的价值。也就是定义下执行的收益（价值）为Sarsa中的更新公式整理后为依据
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。