论文链接:https://arxiv.org/abs/1312.5602
引用:Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
概述
Deep Reinforcement Learning (DQN) 是一个 model-free、off-policy 的强化学习算法,使用深度神经网络作为非线性的函数估计,是一个“端到端”训练的算法。Deep Q-network 直接接受RGB三通道图片作为输入,输入为N个动作对应的Q值,即 Q ( s , a ) Q(s,a) Q(s,a),论文的实验主要基于七个Atari游戏。
算法
主要的创新点
- 引入了一个replay buffer,用于存储采样,即一个四元组: