1、Q-learning回顾
Q-learning 的 算法过程如下图所示:
在Q-learning中,我们维护一张Q值表,表的维数为:状态数S * 动作数A,表中每个数代表在当前状态S下可以采用动作A可以获得的未来收益的折现和。我们不断的迭代我们的Q值表使其最终收敛,然后根据Q值表我们就可以在每个状态下选取一个最优策略。
Q值表的更新公式为:
公式中,Q(S,A) 我们可以称做Q估计值,即我们当前估计的Q值,而:
称为Q-target,即我们使用贝尔曼方程加贪心策略认为实际应该得到的奖励,我们的目标就是使我们的Q值不断的接近Q-target值。
2、深度Q网络(Deep - Q - Network)
2.1 DQN简介
为什么会出现DQN呢
在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不现实。
两篇DQN奠基之作
[1]Playing Atari with Deep Reinforcement Learning
[2]Human-level control through deep reinforcement learning
如何将原始的Q-learning转换成深度学习问题
将Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作。如下式,通过更新参数 θ 使Q函数逼近最优Q值 。因此,DQN就是要设计一个神经网络结构,通过函数来拟合Q值,即:
2.2 DL和RL结合带来的问题
1、DL需要大量带标签的样本进行监督学习;RL只有reward返回值,而且伴随着噪声,延迟(过了几十毫秒才返回),稀疏(很多State的reward是0)等问题;
2、DL的样本独立;RL