规划是一种什么样的推理？

步子哥

已于 2024-06-28 07:48:20 修改

阅读量589

点赞数 25

文章标签：人工智能深度学习

于 2024-06-28 07:46:33 首次发布

本文链接：https://blog.csdn.net/weixin_36829761/article/details/140031932

版权

在现代人工智能研究中，“规划” 和 “推理” 是两个关键概念。在本文中，我们将从变分推理的角度探讨不同类型的推理在规划中的作用，并分析它们的适用性。

引言

在概率图模型中，有多种推理类型可供选择，例如边缘推理（marginal）、最大后验推理（MAP）和边缘最大后验推理（MMAP）。然而，当研究人员提到“作为推理的规划”时，他们指的到底是哪一种推理？文献中对此没有一致的定义，不同的研究使用了不同的推理方法，并且这些方法的规划能力还与特定的近似或额外的约束纠缠在一起。

在本文中，我们使用变分框架来展示所有常用的推理类型如何对应于变分问题中熵项的不同权重，并且规划正好对应于一组不同的权重。这意味着变分推理的所有技巧都可以直接应用于规划中。我们开发了一个类似于循环信念传播的算法，可以在状态空间指数级增长的情况下进行近似规划。

背景

马尔可夫决策过程（MDPs）

有限视野马尔可夫决策过程（MDP）是一个六元组： $(\mathcal{X}, \mathcal{A}, p(x_1), \mathcal{P}, \mathcal{R}, T)$ ，其中：

$\mathcal{X}$ 是状态空间，
$\mathcal{A}$ 是动作空间，
$p(x_1)$ 是初始状态分布，
$\mathcal{P}$ 是状态转移概率 $P(x_{t+1}|x_t, a_t)$ ，
$\mathcal{R}$ 是在从 $x_t$ 转移到 $x_{t+1}$ 并执行动作 $a_t$ 时的奖励，
$T$ 是视野。

解决 MDP 对应于找到一个策略 $\pi_t(a_t|x_t)$ ，使得期望奖励最大化。

变分推理

变分推理（VI）是一种用于近似复杂概率分布的技术。对于一般的因子图 $f(\bm{x}, \bm{a})$ ，VI 问题可以表示为：
$\max_{q(\bm{x}, \bm{a})} \langle \log f(\bm{x}, \bm{a}) \rangle_{q(\bm{x}, \bm{a})} + H^{\text{type}}_{q}(\bm{x}, \bm{a})$
其中， $q(\bm{x}, \bm{a})$ 是变量的任意变分分布， $H^{\text{type}}_{q}(\bm{x}, \bm{a})$ 是特定类型的熵项。

方法

标准 MDP 的 VI

我们感兴趣的主要量是最佳指数效用（utility），定义如下：
$F_{\lambda}^{\text{planning}} = \frac{1}{\lambda} \log \max_{\bm{\pi}} \mathbb{E}_{\bm{\pi}} \left[ e^{\lambda R(\bm{x}, \bm{a})} \right]$