强化学习(二)——Q learning、Sarsa、Deep Q learning三种算法思想

一、Q learning算法 如上图所示,Q learning的决策值(基于值的一种算法)存储在一张Q table中。可以先设定a1的奖励值为-2,a2的奖励值为1,那么在s1状态下我们选择奖励值大的动作a2,这就是上图中的Q(S1,a2)估计,接下来状态变为s2。 更新思想:但是Q table中的决策值只是我们先假定的决策值,这不是最优的。因此需要每走一步就更新一次(...
摘要由CSDN通过智能技术生成

一、Q learning算法

     如上图所示,Q learning的决策值(基于值的一种算法)存储在一张Q table中。可以先设定a1的奖励值为-2,a2的奖励值为1,那么在s1状态下我们选择奖励值大的动作a2,这就是上图中的Q(S1,a2)估计,接下来状态变为s2。

     更新思想:但是Q table中的决策值只是我们先假定的决策值,这不是最优的。因此需要每走一步就更新一次(单步更新)。如何进行更新呢?借助上图中Q(S1,a2)现实的表达式,这里Q(S1,a2)现实之所以称作现实,我理解的是:表格中s1状态下的两个行为a1和a2的奖励值,并不是我们真正获取的奖励值,而是预期获取的奖励值。因为选择了a2动作后到达s2,不仅获得了即时的奖励值R,而且还有一个s2状态对未来期望的reward值,那么不难理解其称作现实。根据Q(S1,a2)现实和Q(S1,a2)估计的差值对原来的Q(S1,a2)决策值进行更新。

</

  • 2
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值