在解决模型训练的机器学习问题时,可以使用已知的输出(监督学习),或者模型可以在事先不知道正确结果的情况下自行学习在可用数据中寻找模式(无监督学习)。
强化学习(RL)不属于这两种类型;然而,它同时具有监督和非监督方法的特性。这种机器学习类型最近得到了快速发展,因此出现了许多理论算法[1]。然而,对 RL 产生浓厚兴趣背后的真正原因是可以实现 RL 的各种实际问题,例如自动化、优化和机器人化。当系统需要分析环境并考虑收到的反馈选择行为策略时,强化学习最有效。
2013 年,DeepMind 团队提出了一种算法,用于训练计算机玩 7 个Atari 2600没有人类参与的游戏[2]。计算机自己执行所有动作,估计哪些动作在游戏中带来最大收益,并选择获胜策略。该算法基于 RL 算法。目前,雅达利游戏被用作新强化学习方法的基准。最近由同一个 DeepMind 团队设计的 R2D2 算法比普通人类玩家 [3] 的表现要好大约 20 倍。R2D2 的优势在于实现循环神经网络。尽管这些神经网络之前已经在其他算法中实现过,但新方法使所有其他深度 Q 学习增强功能保持有效。在本文中,我们将讨论结果是如何实现的。
RL 和 Q 学习简介
强化学习 (RL) 介于监督学习(当每个案例都有正确答案时)和无监督学习(根本没有正确答案)之间。在 RL 中,经过训练的模型通常称为代理。代理与特定环境交互。应该为代理确定可以在给定环境中执行的动作空间。作为对代理行为的响应,环境发送奖励并报告其新状态。通过这种方式,智能体积累了有关其在某些状态下的行为的奖励的知识。代理的目标是在设定的时间内获得最大的奖励。因此,评价