规划是一种什么样的推理?

在现代人工智能研究中,“规划” 和 “推理” 是两个关键概念。在本文中,我们将从变分推理的角度探讨不同类型的推理在规划中的作用,并分析它们的适用性。

引言

在概率图模型中,有多种推理类型可供选择,例如边缘推理(marginal)、最大后验推理(MAP)和边缘最大后验推理(MMAP)。然而,当研究人员提到“作为推理的规划”时,他们指的到底是哪一种推理?文献中对此没有一致的定义,不同的研究使用了不同的推理方法,并且这些方法的规划能力还与特定的近似或额外的约束纠缠在一起。

在本文中,我们使用变分框架来展示所有常用的推理类型如何对应于变分问题中熵项的不同权重,并且规划正好对应于一组不同的权重。这意味着变分推理的所有技巧都可以直接应用于规划中。我们开发了一个类似于循环信念传播的算法,可以在状态空间指数级增长的情况下进行近似规划。

背景

马尔可夫决策过程(MDPs)

有限视野马尔可夫决策过程(MDP)是一个六元组: ( X , A , p ( x 1 ) , P , R , T ) (\mathcal{X}, \mathcal{A}, p(x_1), \mathcal{P}, \mathcal{R}, T) (X,A,p(x1),P,R,T),其中:

  • X \mathcal{X} X 是状态空间,
  • A \mathcal{A} A 是动作空间,
  • p ( x 1 ) p(x_1) p(x1) 是初始状态分布,
  • P \mathcal{P} P 是状态转移概率 P ( x t + 1 ∣ x t , a t ) P(x_{t+1}|x_t, a_t) P(xt+1xt,at)
  • R \mathcal{R} R 是在从 x t x_t xt 转移到 x t + 1 x_{t+1} xt+1 并执行动作 a t a_t at 时的奖励,
  • T T T 是视野。

解决 MDP 对应于找到一个策略 π t ( a t ∣ x t ) \pi_t(a_t|x_t) πt(atxt),使得期望奖励最大化。

变分推理

变分推理(VI)是一种用于近似复杂概率分布的技术。对于一般的因子图 f ( x , a ) f(\bm{x}, \bm{a}) f(x,a),VI 问题可以表示为:
max ⁡ q ( x , a ) ⟨ log ⁡ f ( x , a ) ⟩ q ( x , a ) + H q type ( x , a ) \max_{q(\bm{x}, \bm{a})} \langle \log f(\bm{x}, \bm{a}) \rangle_{q(\bm{x}, \bm{a})} + H^{\text{type}}_{q}(\bm{x}, \bm{a}) q(x,a)maxlogf(x,a)q(x,a)+Hqtype(x,a)
其中, q ( x , a ) q(\bm{x}, \bm{a}) q(x,a) 是变量的任意变分分布, H q type ( x , a ) H^{\text{type}}_{q}(\bm{x}, \bm{a}) Hqtype(x,a) 是特定类型的熵项。

方法

标准 MDP 的 VI

我们感兴趣的主要量是最佳指数效用(utility),定义如下:
F λ planning = 1 λ log ⁡ max ⁡ π E π [ e λ R ( x , a ) ] F_{\lambda}^{\text{planning}} = \frac{1}{\lambda} \log \max_{\bm{\pi}} \mathbb{E}_{\bm{\pi}} \left[ e^{\lambda R(\bm{x}, \bm{a})} \right] Fλplanning=λ1logπmaxEπ[eλR(x,a)]

规则 MDP 的 VBP

对于一般的因子图,我们可以使用伪边缘(pseudo-marginals)和 Bethe 近似来使问题变得可解。

不同推理类型的比较

通过比较不同的推理类型,我们发现它们在规划中的表现有显著差异。具体来说,MMAP 推理在低随机性环境中表现优异,但随着随机性增加,其性能下降。

随机性的重要性

在高随机性环境中,规划推理能够更好地处理动态变化,而 MAP 和 MMAP 推理则表现较差。

相关工作

许多文献中都提到了“作为推理的规划”,但具体方法各异。Levine 等人使用 MAP 推理进行规划,而 Cui 等人则采用 ARollout 方法来进行近似推理。

实验验证

在一系列合成 MDP 和国际规划竞赛任务中,我们验证了变分推理框架的效果。结果表明,在高随机性环境中,规划推理优于其他类型的推理。

合成 MDP

我们生成了 5000 个随机的因子 MDP,并比较了不同推理方法的性能。结果显示,VBP 在高随机性下表现最佳。

国际规划竞赛任务

在 IPPC 2011 的任务中,我们的变分推理框架也表现出色,尤其在高随机性任务中表现优异。

结论

变分框架为分析和理解不同推理类型在规划中的表现提供了强大的工具。我们期待这一视角能引导新的规划算法的设计,并进一步理解现有方法。

参考文献

  • Lázaro-Gredilla, M., Ku, L. Y., Murphy, K. P., & George, D. (2024). What type of inference is planning? arXiv preprint arXiv:2406.17863.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值