一、说明
我们在本系列中研究了许多强化学习 (RL) 算法,例如,用于 MoJoCo 任务的策略梯度方法、用于 Atari 游戏的 DQN 和用于机器人控制的基于模型的 RL。虽然许多算法都是在特定领域引入的,但这种联系只能是遗留的。在本文中,我们将概述这些算法,并讨论它们在选择使用方法时的一般权衡。
二、无模型算法
RL算法可分为基于模型的算法和无模型算法。在无模型RL中,我们不知道也不想学习系统动力学

或者,我们只是不在乎,因为该方法不需要状态转换的知识。我们对行动进行抽样并观察相应的奖励,以优化策略或拟合价值函数。
无模型RL分为策略优化和价值学习: