GITHUB : https://github.com/devsisters/DQN-tensorflow(源码)
增强学习的理论有规范的解释,使基于心理学和动物行为感知的神经系统科学,解决Agent在环境中如何优化控制。为了把增强学习成功应用在接近复杂的真实世界的情形下,Agent将会面临棘手的任务:对来自环境中的高维感知输入进行有效的模型表示,可以学习过去的经验来应对未知的情形和环境。显然地,人类和其他动物可以通过增强学习和分层感知处理系统的协调组合来解决问题,前者已经通过大量的神经数据得到证明,其中时间差(TD)增强学习算法是受多巴胺神经元受激发射信号势能启发。增强学习Agent的适用范围已经从以前受限制的领域(比如:可以人工提取有用特征或者是可全范围观测、低维状态空间的受限领域)到现在成功应用于很多通用领域。这里,我们应用最近进展的这种可训练的深层神经网络去研究出一款创新性极高的人工Agent,也就是DQN(deepQ-network),可以直接从高维感知输入使用端到端的增强学习网络成功学习到策略(policy)。Agent在经典的Atari 2600游戏挑战方面进行测试。DQN Agent的性能表现为:仅适用原始像素信息和游戏得分情况作为输入,可以超过所有以前算法的性能,仅仅使用相同算法、网络架构和超参数,在49个测试游戏中,游戏完全水平相当于专业测试人员。这项工作弥合了高维感觉输入和动作之间的鸿沟,从而有了第一个能够在各种挑战性任务中学习卓越的人工Agent。
着力点在于:一个单一强泛化能力的算法可以去解决很多具有挑战性的新任务---一个通用人工智能的核心目标。为了实现这个,我们设计了一款创新型的Agent,结合增强学习与深度神经网路的人工神经网络---DQN模型。深度神经网络的最近进展,建立的节点层的数目越来越多,用来提取数据的更多细节信息表现,使得人工神经网络去学习一些概念(比如:直接从原始感知数据得到目标的类别)成为可能。我们使用了一个非常成功的算法,深度卷积网络(使用平铺滑窗的卷积滤波器在各个层之间去模仿感受野的效果---灵感来源于Hubel和Wiesel在早期视觉正反馈或者叫前馈处理的重要工作),因此提取图像局部稀疏相关表示