一、与遗传算法等优化方法差异
我们考虑的大多数强化学习方法都是围绕估计值函数构建的,但解决强化学习问题并不是严格需要这样做。例如,诸如遗传算法、模拟退火和其他优化方法之类的方法已经被用于处理强化学习问题,而从未诉诸于值函数。这些方法评估了许多非学习代理的“一生”行为,每个非学习代理都使用不同的策略与环境交互,并选择那些能够获得最多奖励的代理。我们之所以称之为进化方法,是因为它们的运作类似于生物进化产生具有熟练行为的生物体的方式,即使它们在个体一生中没有学习。如果策略的空间足够小,或者可以构建良好的策略,使其通用或易于找到,或者如果有大量时间可供搜索,那么进化方法可能是有效的。此外,进化方法在学习主体无法准确感知其环境状态的问题上具有优势。
二、与环境的交互
我们的重点是强化学习方法,这些方法涉及在与环境互动的同时进行学习,而进化方法则没有做到这一点(除非它们进化出学习算法,就像已经研究的一些方法一样)。我们相信,在许多情况下,能够利用个体行为互动细节的方法比进化方法更有效。进化方法忽略了强化学习问题的许多有用结构:它们没有利用这样一个事实,即他们正在寻找的政策是从状态到行动的函数;他们不会注意到一个人在一生中经历了哪些状态,也不会注意到他选择了哪些行动。在某些情况下,这些信息可能会产生误导(例如,当状态被误解时),但更多时候,它应该能够实现更高效的搜索。尽管进化和学习有许多共同的特点,并且自然地协同工作,但我们并不认为进化方法本身特别适合强化学习问题。
三、奖励和回报的优化与最优性
为了简单起见,当我们使用“强化学习方法”一词时,我们不包括进化方法。
然而,优化算法中确实包括了一些方法,就像进化方法一样,对价值函数没有吸引力。这些方法在由一组数值参数定义的策略空间中进行搜索。他们估计了参数应该调整的方向,以便最快速地提高政策的性能。然而,与进化方法不同的是,它们在主体与其环境交互时产生这些估计,因此可以利用个体行为交互的细节。像这样的方法,称为策略梯度方法,已经被证明在许多问题中是有用的,一些最简单的强化学习方法也属于这一类。事实上,其中一些方法利用值函数估计来改进其梯度估计。总体而言,政策梯度方法和我们作为强化学习方法的其他方法之间的区别并没有明确定义。
强化学习与优化方法的联系值得更多的思考,因为这是一个常见误解的来源。当我们说强化学习代理的目标是最大化奖励时,我们当然不是坚持代理必须实际上达到了回报最大化的目的。试图使数量最大化,这并不意味着这个数量永远是最大的。重点是,强化学习主体总是试图增加其获得的奖励。许多因素会阻止它达到最大值,即使存在一个因素。换句话说,优化与最优性不同。