八、规划控制——决策规划（4）

无……风

已于 2023-10-19 10:28:35 修改

阅读量379

点赞数

分类专栏： # Planning and Control 文章标签：算法自动驾驶人工智能机器学习

于 2023-10-18 10:42:49 首次发布

本文链接：https://blog.csdn.net/guozhengxian123/article/details/133851642

版权

Planning and Control 专栏收录该内容

20 篇文章 46 订阅

订阅专栏

概要：本文将对基于Markov的决策过程方法进行了解。

文章目录

前言
一、Markov Decision
二、POMDP
三、MDP in Autonomous Vehicle
四、Solution in Autonomous Vehicle
四、Challenges in MDP
总结

前言

本文将对基于部分可观的Markov决策过程进行了解。

一、Markov Decision

马尔可夫决策过程是一种客观的描述，几乎所有的强化学习可以构造成马尔可夫决策过程，如最优化控制其实就是处理连续的马尔可夫过程，部分客观的问题也可以转换成马尔可夫决策问题。

1.1 Markov Property

马尔可夫性质其实就是指未来和当前状态有关，和过去没有关系，其数学表达式如下：
在这里插入图片描述
可以看出，当前的状态已经包含了历史的相关信息，因此，只需要知道当前状态，历史信息就不再需要。

St：其实就是下一个时刻的充分统计数据，是一个有限数量的离散状态。如等红绿灯时需要看这一秒决定下一秒是否等待而不用看过去的信息；
P：基于当前状态对于下一个状态，可以用状态转移矩阵P来表示，定义为从所有状态到后续状态转移的概率。

假设：S1为当前的状态、S2为未来的状态，如下图所示：

1.2 Markov Chain

马尔可夫链表达元组由S和P定义的无记忆的随机过程为一个状态序列，其中S为有限序列的状态级，P为状态转移概率的矩阵。

马尔可夫链符合马尔可夫性质，马尔可夫链任一个状态只依赖前一个状态。
状态转移概率不会随着时间变化的。

1.3 Hidden Markov Model

它也是一个时序的概率模型，它主要生成不可观测的随机状态序列，再由每个状态生成可观的随机序列的过程。
它可以通过可观的序列O来描述不可观的状态S，因为S在很多时候是不能确定的，还需要状态转移概率P

在这里插入图片描述
隐马尔可夫和马尔可夫的区别是隐马尔可夫的状态S是不可见的，需要一个可观测的量O去观测马尔可夫状态。

1.4 Markov Decision Process

马尔可夫决策过程相比于马氏过程多了一个Action输入，并且引入了奖励，来证明引入Action会得到一个奖励Rewards输出。
在这里插入图片描述

1.5 Partially Observable Markov Decision Process

部分可观的马尔可夫决策过程是一些状态不是可观的，和隐马尔可夫相似，所以，我们需要引入观测量来帮助我们理解状态。
在这里插入图片描述

1.6 Summary

在这里插入图片描述

二、POMDP

目前解决部分可观测的马尔可夫决策过程的方法为预测模型法，在预测模型中可以将状态迁移的历史知识应用到预测模型或者构建系统的内部状态。同时引入了对内部状态的置信度B，描述在A处，状态S的概率。

在这里插入图片描述
预测模型法的问题是：信度状态的马尔可夫决策模型它是一个连续状态的模型，随着模型复杂程度的增加，模型会呈现爆炸式的增加。
所以，需要结合函数逼近算法有效减小计算量，加快整个学习算法的收敛速度：

减小action space或者减小隐性状态量；‘
减小离散化的步长等；
混合观测器的研究，一些状态属性可以完全可观；
求解求解器来加快求解速度；

三、MDP in Autonomous Vehicle

马尔可夫决策过程由5个元素来定义。
在这里插入图片描述

S，状态，它表示无人车所处的有限的状态空间，包含了车道、环境和世界信息。
A，表示无人车行为的决策空间，代表了无人车行为状态的一个集合，包含跟车、换道、向左向右转向和停车等等。
P，表示无人车在St状态和A行为的条件下，达到下一个St+1状态的概率。

它的思想和控制相似：
R，激励函数，表示无人车在St状态和A行为的条件下，达到下一个St+1状态的奖励。
γ，奖励因子，衰减因子，结束信号，当前的衰减因子是1，下一个状态的衰减因子为γ，在下一个状态为γ^2，表示当前的激励比未来的激励更重要，更关注当下，并且提供一个结束的信号。

四、Solution in Autonomous Vehicle

无人车决策解决的问题就是寻找一个最优的策略，是车辆在S状态通过某一个行为决策A，来达到想要的目标，就是最大化从当前时间点到未来积累的奖励。
其中，目标的奖励函数可以定义为：
在这里插入图片描述
在衰减的条件下，从0到无穷大时间范围内，奖励R的最大化积累。这时的A可以由Π来定义。

求解可以用动态规划算法来求解，假设状态转移概率矩阵P和奖励函数R已知，最优策略可以基于以下两式进行不断计算和储存。
在这里插入图片描述
其中，Π为最优策略使得奖励最大化，V为未来衰减叠加累计的期待奖励。求解过程就是在St和St+1之间进行重复的迭代，知道二者收敛为止。

四、Challenges in MDP

在马尔可夫决策过程中，最优策略寻找最关键的是激励函数的设计，在设计该函数时需要考虑的因素如下：

到达目标，需要在给定的路径下到到目标，尽可能通过行为不偏移出给定路径，偏离出会给一个惩罚；
安全性，在轨迹跟踪过程中，避免碰撞障碍物，如果碰撞会给出惩罚；
舒适性，轨迹的平滑性。

在设计马尔可夫决策过程中需要细致，比如空间状态、转移概率以及激励函数等。

总结

本文主要是对于基于马尔可夫决策规划方法进行阐述，了解了马尔可夫的性质、马尔可夫链、马尔可夫模型以及马尔可夫决策过程，及其部分可观的马尔可夫决策过程，并着重讲解了POMDP的概念，以及在无人车中的应用，最后讲解了其面对的挑战，这篇文章希望可以对想要学习自动驾驶规划控制方向的同学们有一定的帮助。
喜欢的朋友们动动小手点个关注，我会定期分享我的一些知识总结和心得体会，感谢大家!