POMDP中的观测量(O)和状态量(S)

最新推荐文章于 2024-04-08 12:36:06 发布

小刀8848

最新推荐文章于 2024-04-08 12:36:06 发布

阅读量1.5k

点赞数 3

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_35078278/article/details/120004745

版权

部分可观测马尔科夫决策过程信念状态状态转移概率观测概率决策规划

关键词由CSDN通过智能技术生成

笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

例子来源，论文Planning and acting in partially observable stochastic domains
在这里插入图片描述

大意是，1. 假设每个时刻存在四种状态 $s_1,s_2,s_3,s_4)$ 。其中，状态3是目标状态。2. 同时，每个时刻观测变量 $O$ 有两种情况，即当前未处于目标状态（但是不知道是1，2，4那种具体状态）和处于目标状态(3)。3. Agent的action有两种情况，即向左（West）和向右（Eest）。agent采取action有0.1的概率会失败，若失败则会向action反方向进行运动（例如当前agent采取向左的action，但是失败了，那么就会向右运动)。如果agent不能往某个方向移动，那么就留在原地(如，位于状态1采取向左移动的action，不会改变当前状态)。
假设agent初始置信状态(belief state) $t = 0$ 为随机位于非目标状态的任意其他状态，即 $[\dfrac{1}{3},\dfrac{1}{3},0,\dfrac{1}{3}]$ 。agent当前时刻采取了向右的action，且观测到agent未处于目标状态。那么新的belief state为：

处于状态1的概率：agent 在 $t = 0$ 时刻处于状态1且采取action失败，或者agent在 $t = 0$ 时刻处于状态2，且采取action失败： $p_1(1)=p_0(1)\cdot p_A(0)+p_0(2)\cdot p_A(0)=\dfrac13\cdot 0.1+\dfrac13\cdot0.1=\dfrac{0.2}{3}$
同理，处于状态2的概率： $p_1(2)=p_0(1)\cdot p_A(1)+p_0(3)\cdot p_A(0)=\dfrac13\cdot 0.9+0\cdot 0.1=\dfrac{0.9}{3}$
处于状态3的概率： $p_1(3)=p_0(2)\cdot p_A(1)+p_0(4)\cdot p_A(0)=\dfrac{1}{3}\cdot 0.1+\dfrac{1}{3}\cdot 0.1=\dfrac{1}{3}$
处于状态4的概率： $p_1(4)=p_0(3)\cdot p_A(1)+p_0(4)\cdot p_A(0)=\dfrac{0.2}{3}$
由于观测到 $p_1(3)=0$ ，因此状态比值为 $2 : 9 : 0 : 9$ ，即belief state为 $[0.1, 0.45, 0, 0.45]$

在这里插入图片描述

在这里插入图片描述
公式中 $\sum_{s\in\mathcal{S}}T(s,a,s')b(s)$ 含义是，已知agent $t$ 时刻处于状态 $s$ ，采取动作 $a$ ，agent下一时刻 $t + 1$ 处于状态 $s^{'}$ 的概率。
$O (s^{'}, a, o)$ 表示已知agent $t + 1$ 时刻处于状态 $s^{'}$ ， $t$ 时刻采取动作 $a$ ， $t + 1$ 时刻观察量为 $o$ 的概率。在例子中一个状态唯一确定一个观察值。例如，当agent处于状态 $1, 2, 4$ 时，观察到的一定时未处于目标状态，相反，当agent处于状态 $3$ 时，观察到的就一定属于目标状态。

但是实际中状态不一定唯一确定观察值。例如，一个人感染新冠病毒（状态），他可能表现出症状（观察值），例如发烧，呕吐等，也有可能没有表现出来。与很多其他因素相关。

小刀8848

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
POMDP中的观测量(O)和状态量(S)

例子来源，论文Planning and acting in partially observable stochastic domains大意是，1. 假设每个时刻存在四种状态(s1,s2,s3,s4)(s_1,s_2,s_3,s_4)(s1,s2,s3,s4)。其中，状态3是目标状态。2. 同时，每个时刻观测变量OOO有两种情况，即当前未处于目标状态（但是不知道是1，2，4那种具体状态）和处于目标状态(3)。3. Agent的action有两种情况，即向左（West）和向右（Eest）。ag
复制链接

扫一扫