Q-learning是一种基于Q表的强化学习方法,单步更新。
因为Q现实的计算是采用S2的MAXQ的方式,但是真的走到S2的时候并不一定走MAXQ的action,所以是off-policy的算法。
下面的图是说明在S1状态的时候,有a1和a2两种动作可以选择。根据Q表的数据,可知在S1状态走a1的Q值为-2,走a2的Q值为1。
根据下面的图可知,当在S1状态的时候,已经决策为走a2的情况下,可以计算出Q(s1,a2)现实为S2的奖励加上衰减率乘S2中Q值最大的动作的Reward。
下面是具体的计算逻辑描述。