在前面讲到的DQN
系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based
强化学习方法在很多领域都得到比较好的应用,但是Value Based
强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如策略梯度(Policy Gradient)
、Actor-Critic
、Asynchronous Advantage Actor-critic(以下简称A3C)
等。
整体来看下强化学习的分类:
Value Based
强化学习方法存在很多不足之处,主要体现以下几点:
- 对连续动作的处理能力不足。
DQN
之类的方法一般都是只处理离散动作,无法处理连续动作。 - 对受限状态下的问题处理能力不足。在使用特征来描述状态空间中的某一个状态时,有可能因为个体观测的限制或者建模的局限,导致真实环境下本来不同的两个状态却再我们建模后拥有相同的特征描述,进而很有可能导致我们的
value Based
方法无法得到最优解。 - 无法解决随机策略问题。
Value Based
强化学习方法对应的最优策略通常是确定性策略,因为其是从众多行为价值中选择一个最大价值的行为,而有些问题的最优策略却是随机策略,这种情况下同样是无法通过基于价值的学习来求解的。这时也可以考虑使用Policy Based
强化学习方法。
Policy Gradient(PG)
-
在强化学习中,有两大类方法,一种基于值(
Value-based
),一种基于策略(Policy-based
)Value-based
的算法的典型代表为Q-learning
和SARSA
,将Q
函数优化到最优,再根据Q
函数取最优策略。Policy-based
的算法的典型代表为Policy Gradient