Q-Learning算法学习
简介
Q-Learning算法下,目标是达到目标状态(Goal State)并获取最高收益,一旦到达目标状态,最终收益保持不变。因此,目标状态又称之为吸收态。
Q-Learning算法下的agent,不知道整体的环境,知道当前状态下可以选择哪些动作。
通常,我们需要构建一个即时奖励矩阵R,用于表示从状态s到下一个状态s’的动作奖励值。
由即时奖励矩阵R计算得出指导agent行动的Q矩阵。
Q矩阵是agent的大脑。
初始时,Q矩阵元素全部初始化为0,表示当前的agent大脑一片空白,什么也不知道。
而计算 Q(s,a) 的推导公式是:
Q(s,a)=R(