POMDP中的观测量(O)和状态量(S)

例子来源,论文Planning and acting in partially observable stochastic domains
在这里插入图片描述
在这里插入图片描述
大意是,1. 假设每个时刻存在四种状态 ( s 1 , s 2 , s 3 , s 4 ) (s_1,s_2,s_3,s_4) (s1,s2,s3,s4)。其中,状态3是目标状态。2. 同时,每个时刻观测变量 O O O有两种情况,即当前未处于目标状态(但是不知道是1,2,4那种具体状态)和处于目标状态(3)。3. Agent的action有两种情况,即向左(West)和向右(Eest)。agent采取action有0.1的概率会失败,若失败则会向action反方向进行运动(例如当前agent采取向左的action,但是失败了,那么就会向右运动)。如果agent不能往某个方向移动,那么就留在原地(如,位于状态1采取向左移动的action,不会改变当前状态)。
假设agent初始置信状态(belief state) t = 0 t=0 t=0为随机位于非目标状态的任意其他状态,即 [ 1 3 , 1 3 , 0 , 1 3 ] [\dfrac{1}{3},\dfrac{1}{3},0,\dfrac{1}{3}] [31,31,0,31]。agent当前时刻采取了向右的action,且观测到agent未处于目标状态。那么新的belief state为:

  1. 处于状态1的概率:agent 在 t = 0 t=0 t=0时刻处于状态1且采取action失败,或者agent在 t = 0 t=0 t=0时刻处于状态2,且采取action失败: p 1 ( 1 ) = p 0 ( 1 ) ⋅ p A ( 0 ) + p 0 ( 2 ) ⋅ p A ( 0 ) = 1 3 ⋅ 0.1 + 1 3 ⋅ 0.1 = 0.2 3 p_1(1)=p_0(1)\cdot p_A(0)+p_0(2)\cdot p_A(0)=\dfrac13\cdot 0.1+\dfrac13\cdot0.1=\dfrac{0.2}{3} p1(1)=p0(1)pA(0)+p0(2)pA(0)=310.1+310.1=30.2
  2. 同理,处于状态2的概率: p 1 ( 2 ) = p 0 ( 1 ) ⋅ p A ( 1 ) + p 0 ( 3 ) ⋅ p A ( 0 ) = 1 3 ⋅ 0.9 + 0 ⋅ 0.1 = 0.9 3 p_1(2)=p_0(1)\cdot p_A(1)+p_0(3)\cdot p_A(0)=\dfrac13\cdot 0.9+0\cdot 0.1=\dfrac{0.9}{3} p1(2)=p0(1)pA(1)+p0(3)pA(0)=310.9+00.1=30.9
  3. 处于状态3的概率: p 1 ( 3 ) = p 0 ( 2 ) ⋅ p A ( 1 ) + p 0 ( 4 ) ⋅ p A ( 0 ) = 1 3 ⋅ 0.1 + 1 3 ⋅ 0.1 = 1 3 p_1(3)=p_0(2)\cdot p_A(1)+p_0(4)\cdot p_A(0)=\dfrac{1}{3}\cdot 0.1+\dfrac{1}{3}\cdot 0.1=\dfrac{1}{3} p1(3)=p0(2)pA(1)+p0(4)pA(0)=310.1+310.1=31
  4. 处于状态4的概率: p 1 ( 4 ) = p 0 ( 3 ) ⋅ p A ( 1 ) + p 0 ( 4 ) ⋅ p A ( 0 ) = 0.2 3 p_1(4)=p_0(3)\cdot p_A(1)+p_0(4)\cdot p_A(0)=\dfrac{0.2}{3} p1(4)=p0(3)pA(1)+p0(4)pA(0)=30.2
  5. 由于观测到 p 1 ( 3 ) = 0 p_1(3)=0 p1(3)=0,因此状态比值为 2 : 9 : 0 : 9 2:9:0:9 2:9:0:9,即belief state为 [ 0.1 , 0.45 , 0 , 0.45 ] [0.1,0.45,0,0.45] [0.1,0.45,0,0.45]

在这里插入图片描述

在这里插入图片描述
公式中 ∑ s ∈ S T ( s , a , s ′ ) b ( s ) \sum_{s\in\mathcal{S}}T(s,a,s')b(s) sST(s,a,s)b(s)含义是,已知agent t t t时刻处于状态 s s s,采取动作 a a a,agent下一时刻 t + 1 t+1 t+1处于状态 s ′ s' s的概率。
O ( s ′ , a , o ) O(s',a,o) O(s,a,o)表示已知agent t + 1 t+1 t+1 时刻处于状态 s ′ s' s t t t时刻采取动作 a a a t + 1 t+1 t+1时刻观察量为 o o o的概率。在例子中一个状态唯一确定一个观察值。例如,当agent处于状态 1 , 2 , 4 1,2,4 1,2,4时,观察到的一定时未处于目标状态,相反,当agent处于状态 3 3 3时,观察到的就一定属于目标状态。

但是实际中状态不一定唯一确定观察值。例如,一个人感染新冠病毒(状态),他可能表现出症状(观察值),例如发烧,呕吐等,也有可能没有表现出来。与很多其他因素相关。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 基于POMDP的多机器人路径规划技术是指利用部分可观测马尔可夫决策过程(POMDP)模型来实现多机器人路径规划。POMDP是一种用于描述不确定性决策的数学框架,多机器人路径规划存在的不确定性包括环境的障碍物、其他机器人的位置、传感器误差等。 该技术的核心思想是将多个机器人视为一个整体,利用POMDP模型对整个系统进行建模,从而实现全局优化的路径规划。在该模型,机器人的状态包括位置、速度等信息,动作包括移动和避让障碍物等操作。同时,考虑到机器人之间的协作,每个机器人的决策也会受到其他机器人的影响。 基于POMDP的多机器人路径规划技术在解决多机器人协同任务方面具有很大的潜力,能够实现高效、安全、自适应的路径规划。 ### 回答2: 基于部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)的多机器人路径规划技术是一种针对多机器人系统的路径规划问题的解决方案。POMDP是一种数学模型,它能够处理不完全观测和不确定性,并提供了一种有效的方法来进行路径规划。 多机器人路径规划问题,每个机器人都需要在环境找到合适的路径以完成其特定的任务。然而,由于环境的不确定性和机器人之间的相互干扰,传统的路径规划方法可能无法满足要求。这时,基于POMDP的方法就显得尤为重要。 该技术的核心思想是将路径规划问题转化为一个POMDP模型,其机器人的状态是不完全观测的,而动作的结果和环境的变化是不确定的。通过对机器人当前观测和历史观测进行统计分析和推理,可以获得对机器人状态的估计。然后,利用POMDP求解算法,如基于贝叶斯原理的信念状态更新和策略搜索等,可以确定机器人的最优路径。 这种技术的优势在于能够充分考虑不完全观测和不确定性,提供了更为鲁棒和适应性强的路径规划方案。它能够适应复杂的环境和任务需求,在机器人之间分配任务,并充分考虑彼此之间的干扰。此外,POMDP还可以与其他技术结合,如机器学习和强化学习等,以进一步优化路径规划效果。 基于POMDP的多机器人路径规划技术在自动化仓库物流、团队协作、搜救和勘探任务等领域有着广泛的应用前景。通过充分利用不完全观测和不确定性的信息,它能够帮助机器人系统更加智能地完成任务,提高效率和安全性。 ### 回答3: 基于部分可观测的马尔可夫决策过程(POMDP)的多机器人路径规划技术是一种解决多机器人协同行动下路径规划问题的方法。在这个技术,每个机器人根据局部观测,通过POMDP模型进行决策,选择下一步的行动,并与其他机器人进行通信和协调。 POMDP将机器人感知到的环境分为不同的状态,并使用概率分布描述状态转移和观测模型。这样,每个机器人可以根据自己的观测结果,计算出当前的置信度,并将其作为POMDP的输入。然后,机器人可以使用最大化期望收益的原则,通过对未来路径的评估来选择最优行动。 在多机器人协同路径规划,不同机器人之间的交互和合作也是非常重要的。通过通信和协调,机器人可以相互分享观测结果和路径信息,加强彼此的置信度估计,并避免冲突和碰撞。最终,所有机器人将会根据计算出的最优路径进行行动,以实现整体的协同目标。 基于POMDP的多机器人路径规划技术具有一些优点。首先,它考虑到了环境的随机性和不完全观测性,能够在不确定性下做出最优决策。其次,它能够实现多机器人的协同行动,减少冲突和碰撞,提高整体效率。此外,通过利用信息共享和协调,该技术能够在复杂环境应对路径规划问题。 然而,基于POMDP的多机器人路径规划技术也存在一些挑战和限制。首先,POMDP的计算复杂度较高,对仿真和实时性要求较高。其次,多机器人之间的通信和协调也需要解决一些问题,如通信延迟和合作策略的设计。此外,POMDP模型的参数估计和求解也是一个复杂的问题,需要更多的研究和改进。 总的来说,基于POMDP的多机器人路径规划技术是一种有效的方法,可以解决多机器人协同行动下的路径规划问题。通过考虑不完全观测和随机性,以及机器人之间的通信和协调,该技术可以为多机器人系统提供优化的路径规划策略。但是,还需要进一步的研究和改进,以提高计算效率和解决实际问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值