机器人pomdp导航matlab仿真,基于单链序贯回溯Q学习的移动机器人路径规划算法专利_专利查询 - 天眼查...

最新推荐文章于 2022-10-29 22:41:06 发布

马力的爸爸

最新推荐文章于 2022-10-29 22:41:06 发布

阅读量182

点赞数

文章标签：机器人pomdp导航matlab仿真

1. 一种基于单链序贯回溯Q学习的移动机器人路径规划算法，其特征是：使用栅格法表示二维环境，每块环境区域都对应一个离散的位置表示，移动机器人在某一时刻的状态就表示为机器人所在环境位置，按照移动机器人顺序通过的环境位置依次排列，形成移动机器人的状态单链，移动机器人的每一步搜索，都以非确定性马尔科夫决策过程的Q-学习迭代公式为基础，从单链的末端即当前状态的Q值开始逐步序贯回溯到单链的首端即初始位置的Q值，直到到达目标位置，移动机器人循环往复地从初始位置开始寻找到达目标位置的路径，在搜索的每一步按照上述步骤，不断迭代和优化状态的Q值，直到收敛为止；具体步骤如下： (1) 建立状态单链：在每一 t时刻，为移动机器人记忆矩阵M(t)增加一行M(t) - [st，at，rt, XJ，其中St 表示机器人的当前状态，当前状态就是机器人所在位置的坐标，st = [xt，yt]，at表示在当前状态下执行的动作，包括向上、向下、向左、向右、静止五个动作，分别表示为[〇, 1]，[〇，-ι]， [-1，0], [1，0]，[0, 0]，动作集合表示为A，当前状态st与五个动作构成五个状态-动作对，每一个状态-动作对对应一个Q值Q(s，a)，所有的Q(s，a)初始化为零，并根据步骤(2)中的迭代更新公式进行更新，根据贪婪策略选择动作at，即选择满足A =a!"gmax 丨 ak[A 也就是选择与当前状态st构成的五个状态-动作对的Q值最大的动作作为at，st+1表示执行动作at后下一时刻状态值，rt表示对动作at奖励值，如果执行a t后的下一个坐标上有障碍物，则机器人下一时刻状态st+1仍为st的坐标值，奖励值r t = -0. 2 ;如果执行at后的下一个坐标上没有障碍物，则st+1为该坐标，奖励值r t = -0. 1 ;如果执行at后的下一个坐标是目标位置即终点，则奖励值rt = l;Ate (〇，1)表示学习率，只要Ate (〇，1)，经过有限次迭代，Q-学习算法一定能够收敛于最优解；从初始时刻t = 0到当前时刻t = η,所有的状态依序构成一个状态单链； (2) 序贯回溯迭代：在t+Ι时刻，记忆矩阵M(t)增加一行新内容[st+1，at+1，rt+1，λ t+1]，并根据记忆矩阵中存储的状态链，用Q-学习迭代公式进行序贯回溯迭代更新：对于 k = t, t-1, t-2,…，1，0,执行：