Q-learning
DQN
论文:Human-level control through deep reinforcement learning
DQN其实就是将深度学习与Q-learning结合起来了,建立了卷积神经网络来估计Q值。
建立了Q network,Q target network( Q̂ )两个网络,对每一个episode,t时刻时,对于状态 st ,利用 ϵ -greedy选择一个action at=argmaxaQ(ϕ(st),a;θ) ,执行 at 之后获得reward和下一状态 ϕt+1 ,将当前状态 ϕt 、动作 at 、奖励 rt 、下一状态 ϕt+1 储存在D中。然后从D中随机选择一个batch的sample (ϕj,aj,rj,ϕj+1) .通过最小化
(rj+γmaxa′Q̂ (ϕ