一、Q learning算法
如上图所示,Q learning的决策值(基于值的一种算法)存储在一张Q table中。可以先设定a1的奖励值为-2,a2的奖励值为1,那么在s1状态下我们选择奖励值大的动作a2,这就是上图中的Q(S1,a2)估计,接下来状态变为s2。
更新思想:但是Q table中的决策值只是我们先假定的决策值,这不是最优的。因此需要每走一步就更新一次(单步更新)。如何进行更新呢?借助上图中Q(S1,a2)现实的表达式,这里Q(S1,a2)现实之所以称作现实,我理解的是:表格中s1状态下的两个行为a1和a2的奖励值,并不是我们真正获取的奖励值,而是预期获取的奖励值。因为选择了a2动作后到达s2,不仅获得了即时的奖励值R,而且还有一个s2状态对未来期望的reward值,那么不难理解其称作现实。根据Q(S1,a2)现实和Q(S1,a2)估计的差值对原来的Q(S1,a2)决策值进行更新。
</