部分可观测马尔科夫决策过程 (POMDP; Partially Observable MDP)

1. 从MDP到POMDP

        马尔科夫决策过程(MDP)是具备马尔科夫性质的随机过程,即MDP的条件概率仅与系统的当前状态有关,与它的过去或未来状态是独立不相关的。表示为:

\text{Pr} [X_t=x_t | X_s=x_s, X_{p_1} = x_{p_1}, \cdots] =\text{Pr}[X_t=x_t | X_s=x_s]

其中,t,s,p分别表示未来、当前和过去的时间点。

        POMDP是MDP的扩展,是一种用于建模在不完全信息环境下做决策的问题。相较于MDP,POMDP引入了观测空间观测函数的概念,用于描述在部分可观测环境中的决策过程。在POMDP中,智能体无法直接观测到环境的所有真实状态,只能根据一系列的观测来推断状态,并基于这些可能的状态的置信状态(Belief state)进行决策。POMDP的模型定义通常包括状态空间、动作空间、状态转移函数、奖励函数、观测空间、观测函数、折扣因子等。

2. POMDP模型构建

        POMDP的模型使用七元组\{S, A, \Theta, P, R, g, \beta\}表示,分别为:

  • S:状态空间
  • A:动作空间
  • \Theta:观测空间。选择动作后,获得系统的观测值\theta \in \Theta
  • P:转移概率函数,描述为:

P(a,i,j) = p_{i,j}^a=\text{Pr}[x_{t+1}=j|x_t=i, a_t=a]

表示当前状态为i时,执行动作a后,系统转移到状态j的概率

  • R:观测函数,描述为:

R(a,j,k) = r_{j,k}^a=\text{Pr}[\theta_{t+1}=k|x_{t+1}=j, a_t=a]

表示执行动作a后,系统转移到状态j后,观测值为k的概率

  • g:收益函数。g(x_t, a_t)表示系统处于状态x_t,执行动作a_t时的收益
  • \beta:折扣因子,满足0<\beta\leq1

3. POMDP优化与决策过程

        在POMDP中,智能体在每个时隙t的动作决策取决于当前的置信状态b_t。置信状态通过历史观测和动作进行更新。

        智能体选择动作a_t的策略\pi是一个从置信状态到动作的映射,表示为\pi(b_t)=a_t。最优策略\pi^*最大化从当前置信状态开始的期望折扣总奖励:

p_i^* = \arg \max_{\pi}E_{\pi}[\sum_{t=0}^{\infty}\beta^tg(x_t, a_t))|b_0]

        更新过程:置信状态b_t的更新取决于前一个置信状态b_{t-1}、执行的动作a_{t-1}和观察到的观测\theta_{t}。置信状态更新公式为:

b_{t}(s') = \frac{R(\theta_t | s', a_{t-1}) \sum_{s \in \mathcal{S}} P(s' | s, a_{t-1})b_{t-1}(s) }{ \sum_{s \in \mathcal{S}}R(\theta_t | s', a_{t-1}) \sum_{s \in \mathcal{S}} P(s' | s, a_{t-1})b_{t-1}(s) }

[1] 马尔可夫过程 - 维基百科,自由的百科全书 (wikipedia.org)

[2] 桂林,武小悦.部分可观测马尔可夫决策过程算法综述[J].系统工程与电子技术,2008,(06):1058-1064.

[3] Murphy, Kevin P. "A survey of POMDP solution techniques." environment 2, no. 10 (2000).

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值