强化学习之Q Learning
标签: ReinforcementLearning QLearning
代码:https://github.com/gutouyu/ReinforcementLearning/tree/master
1. 算法思想
Q
指的是状态动作效益。智能体Agent,每个时刻都有一个状态State, 在该状态下,它可以采取一系列动作中的一个动作Action。Q就是指在状态State下采取动作Action所获得的收益。
我们的Agent就是根据这张表Q-Table来采取动作的。每采取一个动作Action,就会到达一个状态State,会得到一个奖励Reward(Reward可正可负)。
2. 更新公式
Agent的学习过程,或者说是训练过程就是Q-Table的更新过程,也就是上式。在S状态下采取动作A,效用值是Q(S,A), α