文章目录
RL算法的分类
1. 分类标准一
从“是否能对环境建模”出发,RL可以被划分为 Model-Free
和Model-Based
.
二者之间的区别就是 agent能不能为环境建模,也就是去学习一个函数可以预测状态转移和收益。
如果我们为环境建模,那么agent就可以提前预测各种选择下的情况,并从这些预测过程中学到更多经验,再应用到实际行为中。最著名的就是AlphaZero
的例子,在 sample efficiency
上优势显著。在这个例子中虽然我们可以知道对手所有可能的环境,但并不知道对手真正会走到哪个位置。因此,可以把对手的策略想象成环境的状态转移概率。
样本使用率
每一次策略发生变化,是否要丢弃前面产生的样本。如果是agent和环境交互,耗时很长,所以每次丢弃大量样本是不划算。
Model-Based
很明显的缺点就是建模很困难。就是variance和bias之间的关系,而且学习成本也非常大。
Model-Free
就不用关注那么多了,实现起来更容易,被应用的更广泛。
2. 分类标准二
从“学习目标”出发,RL可以被划分为学习policy
,学习状态值函数,学习值函数,学习环境。
2.1 基于model-free的分类标准二
Policy Optimization
即RL的目标是学到一种最优策略,记为 π θ ( a ∣ s ) \pi_{\theta}(a|s) πθ(a∣<