强化学习（二）——Q learning、Sarsa、Deep Q learning三种算法思想

最新推荐文章于 2024-05-30 07:30:00 发布

colourgxk

最新推荐文章于 2024-05-30 07:30:00 发布

阅读量1.7k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/colourgxk/article/details/89493256

版权

一、Q learning算法如上图所示，Q learning的决策值（基于值的一种算法）存储在一张Q table中。可以先设定a1的奖励值为-2，a2的奖励值为1，那么在s1状态下我们选择奖励值大的动作a2，这就是上图中的Q（S1，a2)估计，接下来状态变为s2。更新思想：但是Q table中的决策值只是我们先假定的决策值，这不是最优的。因此需要每走一步就更新一次（...

摘要由CSDN通过智能技术生成

一、Q learning算法

如上图所示，Q learning的决策值（基于值的一种算法）存储在一张Q table中。可以先设定a1的奖励值为-2，a2的奖励值为1，那么在s1状态下我们选择奖励值大的动作a2，这就是上图中的Q（S1，a2)估计，接下来状态变为s2。

更新思想：但是Q table中的决策值只是我们先假定的决策值，这不是最优的。因此需要每走一步就更新一次（单步更新）。如何进行更新呢？借助上图中Q（S1，a2)现实的表达式，这里Q（S1，a2)现实之所以称作现实，我理解的是：表格中s1状态下的两个行为a1和a2的奖励值，并不是我们真正获取的奖励值，而是预期获取的奖励值。因为选择了a2动作后到达s2，不仅获得了即时的奖励值R，而且还有一个s2状态对未来期望的reward值，那么不难理解其称作现实。根据Q（S1，a2)现实和Q（S1，a2)估计的差值对原来的Q（S1，a2)决策值进行更新。

</

最低0.47元/天解锁文章

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
强化学习（二）——Q learning、Sarsa、Deep Q learning三种算法思想

一、Q learning算法如上图所示，Q learning的决策值（基于值的一种算法）存储在一张Q table中。可以先设定a1的奖励值为-2，a2的奖励值为1，那么在s1状态下我们选择奖励值大的动作a2，这就是上图中的Q（S1，a2)估计，接下来状态变为s2。更新思想：但是Q table中的决策值只是我们先假定的决策值，这不是最优的。因此需要每走一步就更新一次（...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。