部分可观测马尔科夫决策过程 (POMDP； Partially Observable MDP)

gaosuc

已于 2024-09-16 14:47:19 修改

阅读量585

点赞数 7

文章标签：信息与通信

于 2024-09-16 14:46:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaosuc/article/details/142230906

版权

1. 从MDP到POMDP

马尔科夫决策过程（MDP）是具备马尔科夫性质的随机过程，即MDP的条件概率仅与系统的当前状态有关，与它的过去或未来状态是独立不相关的。表示为：

$\text{Pr} [X_t=x_t | X_s=x_s, X_{p_1} = x_{p_1}, \cdots] =\text{Pr}[X_t=x_t | X_s=x_s]$

其中，t,s,p分别表示未来、当前和过去的时间点。

POMDP是MDP的扩展，是一种用于建模在不完全信息环境下做决策的问题。相较于MDP，POMDP引入了观测空间和观测函数的概念，用于描述在部分可观测环境中的决策过程。在POMDP中，智能体无法直接观测到环境的所有真实状态，只能根据一系列的观测来推断状态，并基于这些可能的状态的置信状态（Belief state）进行决策。POMDP的模型定义通常包括状态空间、动作空间、状态转移函数、奖励函数、观测空间、观测函数、折扣因子等。

2. POMDP模型构建

POMDP的模型使用七元组 $\{S, A, \Theta, P, R, g, \beta\}$ 表示，分别为：

$S$ ：状态空间
$A$ ：动作空间
$\Theta$ ：观测空间。选择动作后，获得系统的观测值 $\theta \in \Theta$
$P$ ：转移概率函数，描述为：

$P(a,i,j) = p_{i,j}^a=\text{Pr}[x_{t+1}=j|x_t=i, a_t=a]$

表示当前状态为i时，执行动作a后，系统转移到状态j的概率

$R$ ：观测函数，描述为：

$R(a,j,k) = r_{j,k}^a=\text{Pr}[\theta_{t+1}=k|x_{t+1}=j, a_t=a]$

表示执行动作a后，系统转移到状态j后，观测值为k的概率

$g$ ：收益函数。 $g(x_t, a_t)$ 表示系统处于状态 $x_t$ ，执行动作 $a_t$ 时的收益
$\beta$ ：折扣因子，满足 $0<\beta\leq1$

3. POMDP优化与决策过程

在POMDP中，智能体在每个时隙t的动作决策取决于当前的置信状态 $b_t$ 。置信状态通过历史观测和动作进行更新。

智能体选择动作 $a_t$ 的策略 $\pi$ 是一个从置信状态到动作的映射，表示为 $\pi(b_t)=a_t$ 。最优策略 $\pi^*$ 最大化从当前置信状态开始的期望折扣总奖励：

$p_i^* = \arg \max_{\pi}E_{\pi}[\sum_{t=0}^{\infty}\beta^tg(x_t, a_t))|b_0]$

更新过程：置信状态 $b_t$ 的更新取决于前一个置信状态 $b_{t-1}$ 、执行的动作 $a_{t-1}$ 和观察到的观测 $\theta_{t}$ 。置信状态更新公式为：

$b_{t}(s') = \frac{R(\theta_t | s', a_{t-1}) \sum_{s \in \mathcal{S}} P(s' | s, a_{t-1})b_{t-1}(s) }{ \sum_{s \in \mathcal{S}}R(\theta_t | s', a_{t-1}) \sum_{s \in \mathcal{S}} P(s' | s, a_{t-1})b_{t-1}(s) }$

[1] 马尔可夫过程 - 维基百科，自由的百科全书 (wikipedia.org)

[2] 桂林,武小悦.部分可观测马尔可夫决策过程算法综述[J].系统工程与电子技术,2008,(06):1058-1064.

[3] Murphy, Kevin P. "A survey of POMDP solution techniques." environment 2, no. 10 (2000).

关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。