在调查过基于模型的强化学习方法后，我们得到这些结论-CSDN博客

本文链接：https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/103951804

所有参与投票的 CSDN 用户都参加抽奖活动

群内公布奖项，还有更多福利赠送

作者 | Michael Janner

译者 | 孙薇

编辑 | 夕颜

出品 | AI科技大本营（ID: rgznai100）

【导读】强化学习系统的决策方式有两种。基于模型的方法中，系统通过世界预测模型提问“如果执行了x会发生什么”，从而选出最佳的x方案。在无模型的方法中，建模步骤被完全跳过，直接跳至控制策略学习。尽管实际中，这两种方法的界限可能会非常模糊，但用以粗略划分算法的可能性空间还是很有指导意义的。

预测模型可用来提问“如果……会怎样？”，以指导未来的决策

在作出区分后，通常下一个问题就是：是否采用这种预测模型。这个问题已经困扰这个领域一段时间了，也不太可能在短时间内得到解决。但就设计基于模型的算法方面，我们已经习得了足够的知识，这让我们得以总结出最佳实践及常见陷阱的一些通用性结论。本文就基于模型的强化学习方法的各种实现进行了调查，再针对使用训练过的预测模型时所需要权衡的一些问题，以及这些考量在激励基于模型的强化学习时所采用的简单但有效的策略进行描述。本文后半部分是根据我们近期基于模型的策略优化论文所撰写的。

附相关代码：https://github.com/JannerM/mbpo

基于模型的方法

下面将基于模型的算法归纳为四类，以突出预测模型的使用范围。为了在连续控制设置中对比这些方法的性能，强烈推荐使用此基准测试文件：https://arxiv.org/abs/1907.02057

解析梯度计算

针对动态和成本函数形式提出假设非常方便，因为它们可以为局部最优控制提供封闭形式的解决方案，如同在LQR框架中一样。即便这些假设无效，滚动时域控制也可以修复因近似动态带来的小误差。同样，高斯过程执行梯度分析时，动态模型的参数化可用于改进策略。自这些简单的参数化派生出的控制器也可以用于提供指导样本，以训练更加复杂的非线性策略。

基于采样的方案

在完全普适的非线性动态模型案例中，我们无法保证局部最优，而必须依赖采样操作序列。这种方法最简单的版本便是随机生成，需要从某个固定分布获取样本候选操作，将其置于模型中评估，再从中选择最有可能的操作。复杂些的版本会反复迭代，调整样本分布，比如交叉熵方法（CEM：用于深度规划网络PlaNet、轨迹采样的概率集合体PETS以及视觉预见），或者路径积分的最优控制（用于近来出现的基于模型的机巧操控成果）。

但是，在离散操作设置中，相比针对单个路径轨迹的精炼迭代，针对树结构的搜索更为常见。常见的基于树结构的搜索算法包括MCTS，它使得机器在最近的游戏对弈中取得令人印象深刻的成果，并迭代了宽度搜索。在连续域与离散域中，基于采样的方案也可以与结构化的、基于物理学的、以对象为中心的先验结果相结合。

基于模型的数据生成

在许多机器学习的成功案例中，一个重要的细节在于人为增加训练集大小的方法。策略优化的手动数据扩充过程很难定义，但我们可以将预测模型视为类似于某个训练过的生成合成数据的方法。这种组合方法最初在Sutton教授的Dyna算法中提出，包含了模型学习、在模型中生成数据、使用模型数据学习策略。这种策略与iLQG、模型集成与元学习结合在一起，已经扩展到图像观测领域，并适用于理论分析。基于模型的数据生成还可以衍生出使用模型来提升时间差异学习的目标值评测。

价值等效预测

与不基于模型的分类相比，最后一种方法不能很好地用于基于模型的分类，它是将基于模型、但不监测模型预期的相似方案放在一起合并计算，以模拟现实世界。相对来说，模型中的方案仅在预测的累积反馈中，才符合实际环境中的轨迹。这些价值等效模型已被证实在高维观测空间中是有效的，而对于基于模型的传统规划则很困难。

模型数据权衡

在后文中，我们将着重介绍基于模型的强化学习的数据生成策略。将模型生成的数据合并到其他不基于模型的算法中，这种做法是否可行还不得而知。建模误差可能会导致时间差异更新的不一致，而且在线性近似的案例中，模型与值拟合是等效的。但是，通过斟酌预测模型的经验泛化能力，更容易激发模型的使用，且这种基于模型的扩充过程在实践中已被证实出奇地有效。

好消息

思考模型生成数据的影响，有一种常见的方法，便是从增强学习的标准目标开始：