概率图模型 python_论强化学习和概率推断的等价性：一种全新概率模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_36046776/article/details/113720335

概率图模型(PGM)为机器学习研究者提供了一种广泛适用的工具(Koller 和 Friedman，2009)：该模型用概率理论表达整个学习问题，为原则目标的设计提供了一个一致、灵活的框架，建立了反映世界因果结构的模型，并允许针对广泛的问题领域部署一组通用的推理方法。事实上，如果一个特定的学习问题可以形式化为概率图模型，我们通常会将其作为解决问题的第一步，也是最重要的一步。关键的是，在 PGM 框架下，写下模型并提出问题就足够了，学习和推理的目标会自动涌现。

一般来讲，被形式化为强化学习或最优控制的决策问题会被投射到一个框架中，该框架旨在用效用或奖励来扩充概率模型，进而实现模型的泛化，其中奖励函数被视为外部信号。根据这种观点，确定最佳行动方案或最佳决策策略是一种与概率推理截然不同的问题，尽管潜在的动力系统仍然可以用概率图模型来描述。在本文中，我们提出了关于决策、强化学习和最优控制的另一种观点，其中决策问题只是特定类型图模型中的一种推理问题。将决策形式化为概率图模型中的推理，原则上可以使我们得以应用广泛的近似推理工具，以灵活而有力的方式对模型进行扩展，并对模型的组合性和部分可观测性进行推理。

具体来说，我们将讨论强化学习或最优控制问题(有时称为最大熵强化学习)的泛化如何等价于确定性动力学机制下的精确概率推理及随机动力学机制下的变分推断。所有这些方法都包括将控制或强化学习明确或隐含地表述为 PGM，然后部署来自 PGM 文献的学习和推理方法以解决由此产生的推理和学习问题。

将强化学习和决策形式化为推理可以创造出许多其他有吸引力的工具：基于熵最大化的自然探索策略、逆向强化学习的有效工具以及部署解决强化学习问题的强大的近似推理算法的能力。此外，概率推理和控制之间的联系为奖励函数的含义及其对最优策略