规划代码ros移植-POMDP预测规划(一)

置顶夏融化了这季节

已于 2023-07-13 12:42:57 修改

阅读量1.2k

点赞数 3

分类专栏：自动驾驶笔记和知识分享文章标签：自动驾驶路径规划强化学习

于 2021-07-16 19:34:43 首次发布

本文链接：https://blog.csdn.net/weixin_39735688/article/details/118684450

版权

自动驾驶笔记和知识分享专栏收录该内容

16 篇文章 76 订阅

订阅专栏

一. 马尔可夫Ｍarkov的原理：
首先，马尔可夫过程的大概意思就是未来只与现在有关，与过去无关。即定义如下：
$F_{t_{n}, t_{1}, t_{2} \ldots \ldots t_{n-1}}\left(x_{n} \mid x_{1}, x_{2} \ldots \ldots x_{n} 1\right)=F_{t_{n} t_{n-1}}\left(x_{n} \mid x_{n} 1\right)$
这种“下一时刻的状态至于当前状态有关，与上一时刻状态无关”的性质，称为无后效性或者马尔可夫性。而具有这种性质的过程就称为马尔可夫过程。
在马尔可夫过程中有两个比较重要的概念：转移分布函数、转移概率

马氏过程 $X_{t}$ ，称条件概率 $F_{s, t}=P\left\{X_{t} \leq y \mid X_{s}=x\right\}$ 为过程的转移分布函数。
称 $P\left(X_{t_{n}}=x_{n} \mid X_{t_{n}}=x_{n-1}\right)$ 为转移概率。
二. 部分马尔可夫决策原理（POMDP）：
MDP的原理：网上太多，这里不展开。
POMDP的原理：
有涉及POMDP的论文，都会讲解其基础原理，比如：
链接: DESPOT: Online POMDP Planning with Regularization.

注意以下几点：
1.相比 MDP，POMDP 无法得到 $s t a t e$ ，只能得到 $o b s e r v a t i o n$ ；
2.由于引入了 $o b s e r v a t i o n$ ，增加了 $o b s e r v a t i o n$ 基于 $s t a t e$ 和 $a c t i o n$ 的分布；
3. $h i s t o r y$ 表示为：
$h_{t}=\left\{a_{1}, o_{1}, \ldots, a_{t}, o_{t}\right\}$
$h_{t} ,a_{t+1}=\left\{a_{1}, o_{1}, \ldots, a_{t}, o_{t}, a_{t+1}\right\}$
且被定义为 $a c t i o n$ 和 $o b s e r v a t i o n$ 的 sequence；
4. $b e l i e f$ 被定义为 $s t a t e$ 基于 $h i s t o r y$ 的分布；

详细基础解释:POMDP基础.
三. 使用despot求解的POMDP整体框架：
1.输入b（置信空间），通过buliddespot模型得到l(lowerbound)
2.找到最大l的a(动作)
3.如果置信空间的策略得到的奖励比选择的a大，此时用b原有的策略选择出a
4.执行动作a
5.接受观测量z
6.根据观测量，动作，以及当前的状态，得到下一时刻的状态

其中，builddespot的框架：
1.从K个场景中得到一系列的
2.建立一个新的despot模型，将一个新的点作为根节点
3.初始化U,L,l,u
4.得到e(b0)=u(b0)-l(b0)
5.当e(b0)>e,并且运行时间小于最大的运行时间的时候：
6.b=EXPLORE(D,b)
7.BACKUP(D,b)
8.e(b0)=u(b0)-l(b0)
return l

夏融化了这季节

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
7
评论
规划代码ros移植-POMDP预测规划(一)

一. 马尔可夫Ｍarkov的原理：首先，马尔可夫过程的大概意思就是未来只与现在有关，与过去无关。即定义如下：Ftn,t1,t2……tn−1(xn∣x1,x2……xn1)=Ftntn−1(xn∣xn1)F_{t_{n}, t_{1}, t_{2} \ldots \ldots t_{n-1}}\left(x_{n} \mid x_{1}, x_{2} \ldots \ldots x_{n} 1\right)=F_{t_{n} t_{n-1}}\left(x_{n} \mid x_{n} 1\right)
复制链接

扫一扫