机器人pomdp导航matlab仿真,基于单链序贯回溯Q学习的移动机器人路径规划算法专利_专利查询 - 天眼查...

1. 一种基于单链序贯回溯Q学习的移动机器人路径规划算法,其特征是: 使用栅格法表示二维环境,每块环境区域都对应一个离散的位置表示,移动机器人在 某一时刻的状态就表示为机器人所在环境位置,按照移动机器人顺序通过的环境位置依次 排列,形成移动机器人的状态单链,移动机器人的每一步搜索,都以非确定性马尔科夫决策 过程的Q-学习迭代公式为基础,从单链的末端即当前状态的Q值开始逐步序贯回溯到单链 的首端即初始位置的Q值,直到到达目标位置,移动机器人循环往复地从初始位置开始寻 找到达目标位置的路径,在搜索的每一步按照上述步骤,不断迭代和优化状态的Q值,直到 收敛为止;具体步骤如下: (1) 建立状态单链: 在每一 t时刻,为移动机器人记忆矩阵M(t)增加一行M(t) - [st,at,rt, XJ,其中St 表示机器人的当前状态,当前状态就是机器人所在位置的坐标,st = [xt,yt],at表示在当前 状态下执行的动作,包括向上、向下、向左、向右、静止五个动作,分别表示为[〇, 1],[〇,-ι], [-1,0], [1,0],[0, 0],动作集合表示为A,当前状态st与五个动作构成五个状态-动作对, 每一个状态-动作对对应一个Q值Q(s,a),所有的Q(s,a)初始化为零,并根据步骤(2)中的 迭代更新公式进行更新,根据贪婪策略选择动作at,即选择满足A =a!"gmax 丨 ak[A 也就是选择与当前状态st构成的五个状态-动作对的Q值最大的动作作为at,st+1表示执 行动作at后下一时刻状态值,rt表示对动作at奖励值,如果执行a t后的下一个坐标上有障 碍物,则机器人下一时刻状态st+1仍为st的坐标值,奖励值r t = -0. 2 ;如果执行at后的下 一个坐标上没有障碍物,则st+1为该坐标,奖励值r t = -0. 1 ;如果执行at后的下一个坐标 是目标位置即终点,则奖励值rt = l;Ate (〇,1)表示学习率,只要Ate (〇,1),经过有限 次迭代,Q-学习算法一定能够收敛于最优解;从初始时刻t = 0到当前时刻t = η,所有的 状态依序构成一个状态单链; (2) 序贯回溯迭代: 在t+Ι时刻,记忆矩阵M(t)增加一行新内容[st+1,at+1,rt+1,λ t+1],并根据记忆矩阵中存 储的状态链,用Q-学习迭代公式进行序贯回溯迭代更新: 对于 k = t, t-1, t-2,…,1,0,执行:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值