Q-learning (value-based off-policy)
Q-learning 的关键在于建立 Q表, 例如在一个 Observation s1下对应两个action,分别为action1 和 action2 。对应Q值 Q(s1,a1), Q(s1,a2)。选取较大值进入下一个状态s2
Q-learning更新
假如我们在上一步选取了a2,那么
Q(s1,a2)现实 = R+ rQMax(s2) r为衰减值
Q(s1,a2)估计 = Q(s1,a2)
新的Q(s1,a2) = 老Q(s1,a2) + alpha[R+ rQMax(s2)-Q(s1,a2)]