机器人学习- 基于样本和概率的路径规划(二)

10.马尔可夫决策过程

回收机器人实例

举个例子,我们有一个回收机器人。机器人的目标是在周围环境中驾驶,尽可能多地捡起罐头。它有一组可能正处于的状态,和一组可能采取的行动方案。机器人捡起罐头会得到奖励,如果耗尽电池或搁浅,则会收到一个负奖励(惩罚)。

机器人有一个非确定性的过渡模型(有时称为一步动力学)。这意味着一个动作不能保证将机器人从一个状态引导到另一个状态。相反,每一种状态都有一个相关的概率。

假设在任意时间步t,机器人电池的状态为高(S_t =高)。作为响应,代理决定搜索罐头(A_t =search =search)。在这种情况下,机器人电池电量保持高电量的几率为70%,电量下降到低电量的几率为30%。

在继续之前,让我们回顾一下MDP的定义。

MDP定义

组合路径规划方案

如果我们将A*搜索应用于这个离散的4连通环境,得到的路径将让机器人向右移动2格,然后向下移动2格,再向右移动一次以达到目标(或R-R-D-R-D,这是一个同样最优的路径)。这确实是最短的路径,然而,它把机器人带到了一个非常危险的区域(池塘)。机器人很有可能会掉进池塘,无法完成任务。

如果我们使用 MDPs进行路径规划,我们可能会得到更好的结果!

在每个状态(单元格)中,机器人将获得一定的奖励R(s)R(s)。这种奖励可以是积极的,也可以是消极的,但不可能是无限的。通常会提供以下奖励:
--对非目标状态的小惩罚-代表时间流逝的成本(移动缓慢的机器人会比快速的机器人遭受更大的惩罚),
--为目标状态提供大奖励,以及
--对危险状态的大惩罚——希望能说服机器人避开它们。

考虑到火星车运动的不确定性,这些奖励将帮助引导火星车找到一条高效且安全的路径。

下图显示了分配适当奖励的环境。

如你所见,进入一个不是目标状态的状态时,如果它是平地,奖励为-1,如果是山地,奖励为-3。危险池塘的奖励是-50,而目标的奖励是100。

确定了机器人的转换模型,并将适当的奖励分配到环境的所有区域后,我们现在可以构建一个策略。继续往下读,看看在概率路径规划中是如何做到这一点的!

11.策略

在强化学习中,马尔可夫决策过程的解决方案被称为策略,并以字母π表示。

定义

策略是从状态到行动的映射。对于每一个状态,都会有一个策略告诉机器人它应该采取什么行动。最优策略,记为π *,通知机器人在任何状态下采取的最佳行动,以使整体收益最大化。我们将在下面更详细地研究最优策略。

选读材料:
Wikipedia - Reinforcement Learning(https://medium.com/m/global-identity-2?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Freinforcement-learning-rl-101-with-python-e1aa0d37d43b
Reinforcement Learning 101 - solve the gridworld state-value function (https://en.wikipedia.org/wiki/Reinforcement_learning 

制定策略

下图显示了机器人在其环境中可以采取的一系列行动。注意,没有箭头指向池塘,因为机器人进入池塘后被认为是DOA(到达时死亡)。同样,当机器人到达目标时,没有箭头离开目标,因为路径规划问题已经完成——毕竟,这是一个情景任务。

从这组操作中,可以通过为每个状态选择一个操作来生成策略。在我们重新讨论为每个策略选择适当操作的过程之前,让我们看看上面的一些值是如何计算的。毕竟,-5.9看起来是个很奇怪的数字!

计算预期奖励

回想一下,进入空单元格的奖励是-1,进入多山单元格的奖励是-3,进入池塘的奖励是-50,进入目标的奖励是+100。这些是根据环境定义的奖励。然而,如果我们的机器人想要从一个单元格移动到另一个单元格,它不能保证成功。因此,我们必须计算预期的奖励,这不仅要考虑环境设置的奖励,还要考虑机器人的过渡模型。让我们先看看底部的山单元格。从这里,直觉上很明显,向右移动是最好的行动,所以让我们计算一下。如果机器人的运动是确定的,那么这个运动的成本将是微不足道的(移动到一个开放的单元格的奖励是-1)。然而,由于我们的动作是不确定的,我们需要评估这个动作的预期回报。机器人成功移动到打开的单元的概率为0.8,移动到上面单元的概率为0.1,撞到墙壁并留在当前单元的概率为0.1。

expected reward=0.8∗(−1)+0.1∗(−3)+0.1∗(−3)
expected reward=−1.4

所有的预期奖励都是这样计算的,考虑到这个特定机器人的过渡模型。

你可能已经注意到,上图中缺少了一些预期的奖励。你能计算出它们的值吗?

选择策略

现在我们已经了解了我们的预期回报,我们可以选择一个策略并评估它的效率。同样,策略只是从状态到操作的映射。如果我们回顾上图中描述的操作集,并为每个状态只选择一个操作——即刚好有一个箭头离开每个单元格(危险和目标状态除外)——那么我们就有了自己的策略。

然而,我们不是在寻找任何策略,我们想要找到最优策略。出于这个原因,我们需要研究每种状态的效用,然后确定从每种状态采取的最佳行动。这就是下一个概念!

12.状态的效用

定义

状态的效用(也称为状态值)表示状态相对于目标的吸引力。回想一下,对于每个状态,如果代理(机器人)从该状态开始,然后在所有时间步骤中遵循策略,则状态值函数将产生预期回报。在数学表示法中,这可以这样表示:

正如您在这里看到的,计算一个状态的效用是一个迭代过程。根据策略的指示,它涉及代理在当前状态和目标之间将访问的所有状态。

同样,应该清楚的是,一个状态的效用取决于策略。如果您改变策略,每个状态的效用将会改变,因为在目标之前访问的状态序列可能会改变。

确定最优策略

回忆一下最优策略,记为π∗,它告诉机器人在任何状态下采取的最佳行动,以使整体奖励最大化。也就是说,

可能从一开始就不清楚哪种行动对每个状态来说是最优的,特别是对于那些远离目标但有许多可用路径的状态。从目标开始,然后向后推,通常会很有帮助。

如果你看一下与目标相邻的两个单元格,他们最好的行动是微不足道的-去向目标!回想一下,在RL中,目标状态的效用为0。这是因为如果代理体从目标开始,任务就完成了,并且没有收到任何奖励。因此,来自目标相邻单元格的期望奖励是79.8。因此,该状态的效用,79.8 + 0 = 79.8(基于 Uπ(s) = R (s) + Uπ(s′))。

如果我们看看较低的山单元格,也很容易猜测在这种状态下应该执行哪些操作。在预期奖励为-1.2的情况下,向右移动将比走任何间接路线(向上或向左)更有回报。这种状态的效用为-1.2 + 79.8 = 78.6。

现在轮到你了!

测试

你能计算出,如果选择回报最高的行为,中间山右边的状态的效用是多少吗?

在最优策略下,中心山右边的状态的效用是什么?

选择每个状态中最有回报的行为的过程会继续,直到每个状态都映射到一个行为。这些映射正是策略的组成部分。

强烈建议您在此暂停这一课,并使用上面所见的操作集自己制定出最优策略。自己通读这个例子会让你更好地理解在这个过程中所面临的挑战,也会帮助你更有效地记住这些内容。完成后,您可以将结果与下面的图像进行比较。

策略应用

一旦这个过程完成,代理(机器人)将能够从每个状态做出最佳路径规划决策,并成功地从任何开始位置导航到目标。下面提供了该环境和该机器人的最优策略。

下图显示了一组只剩下最佳操作的操作。请注意,在左上角的单元格中,代理可以向下或向右移动,因为这两种选择都有相同的奖励。

13.值迭代算法

我们为山区环境确定最优政策的过程相当简单,但要确定对每个状态来说哪种行动是最优的,确实需要一些直觉。在更大更复杂的环境中,直觉可能是不够的。在这样的环境中,应该应用一种算法来处理所有的计算并找到MDP的最优解。其中一种算法叫做值迭代算法。迭代是这里的一个关键词,你会明白为什么!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值