Sarsa的进阶--Sarsa(lambda)

最新推荐文章于 2021-07-29 21:56:37 发布

shixiongda

最新推荐文章于 2021-07-29 21:56:37 发布

阅读量2.3k

点赞数 3

文章标签： Sarsa Sarsa-lambda 人工智能机器学习强化学习

本文链接：https://blog.csdn.net/shixiongda/article/details/81909319

版权

Sarsa-lambda今天我们会来说说强化学习中基于 Sarsa 的一种提速方法, 叫做 Sarsa-lambda.Sarsa(n) Sarsa的算法是一种在线学习法, on-policy. 但是这个 lambda 到底是什么. 其实吧, Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa...

摘要由CSDN通过智能技术生成

Sarsa-lambda

今天我们会来说说强化学习中基于 Sarsa 的一种提速方法, 叫做 Sarsa-lambda.

Sarsa(n)

这里写图片描述
Sarsa的算法是一种在线学习法, on-policy. 但是这个 lambda 到底是什么. 其实吧, Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa(0), 因为他等走完这一步以后直接更新行为准则. 如果延续这种想法, 走完这步, 再走一步, 然后再更新, 我们可以叫他 Sarsa(1). 同理, 如果等待回合完毕我们一次性再更新呢, 比如这回合我们走了 n 步, 那我们就叫 Sarsa(n). 为了统一这样的流程, 我们就有了一个 lambda 值来代替我们想要选择的步数, 这也就是 Sarsa(lambda) 的由来. 我们看看最极端的两个例子, 对比单步更新和回合更新, 看看回合更新的优势在哪里.

单步更新 and 回合更新

这里写图片描述
单步更新：虽然我们每一步都在更新, 但是在没有获取宝藏的时候, 我们现在站着的这一步也没有得到任何更新, 也就是直到获取宝藏时, 我们才为获取到宝藏的上一步更新为: 这一步很好, 和获取宝藏是有关联的, 而之前为了获取宝藏所走的所有步都被认为和获取宝藏没关系.
回合更新：虽然我要等到这回合结束, 才开始对本回合所经历的所有步都添加更新, 但是这所有的步都是和宝藏有关系的, 都是为了得到宝藏需要学习的步, 所以每一个脚印在下回合被选则的几率又高了一些. 在这种角度来看, 回合更新似乎会有效率一些.
两种方式的比较：
1.单步更新在每一步都做更新，但是在获得奖励前走的所有步数被认为与获取奖励无关，没有得到更新。这样的更新效率低下。不过只是对获得奖励的前一步做更新，也使得越是靠近奖励的地方越是能得到较好的更新。
2.回合更新在一个回合结束时才做更新，他考虑了从起点到获得奖励的每一步，对每一步做了更新，但是从起点到终点的每一步被认为是权重一样的，这是不合理的。一般我们认为越是靠近奖励的步数对于我们获得奖励的贡献越大，相反刚开始时由于机器人还没有学会如何寻找宝藏，所以很多步走的是没有意义的。

怎么办

我们希望通过记录从出发点到获得奖励点的所有步来进行更新，同时，我们又希望在靠近奖励点的地方获得更大的更新。
这里写图片描述
我们看看这种情况, 还是使用单步更新的方法在每一步都进行更新, 但是同时记下之前的寻宝之路. 你可以想像, 每走一步, 插上一个小旗子, 这样我们就能清楚的知道除了最近的一步, 找到宝物时还需要更新哪些步了. 不过, 有时候情况可能没有这么乐观. 开始的几次, 因为完全没有头绪, 我可能在原地打转了很久, 然后才找到宝藏, 那些重复的脚步真的对我拿到宝藏很有必要吗? 答案我们都知道. 所以Sarsa(lambda)就来拯救你啦.

Lambda 含义

我们添加一个参数 $\lambda$ 来刻画走过的每一步离奖励点的距离（距离越近值越大）。
这里写图片描述
其实 lambda 就是一个衰变值, 他可以让你知道离奖励越远的步可能并不是让你最快拿到奖励的步, 所以我们想象我们站在宝藏的位置, 回头看看我们走过的寻宝之路, 离宝藏越近的脚印越看得清, 远处的脚印太渺小, 我们都很难看清, 那我们就索性记下离宝藏越近的脚印越重要, 越需要被好好的更新. 和之前我们提到过的奖励衰减值 gamma 一样, lambda 是脚步衰减值, 都是一个在 0 和 1 之间的数.

Lambda 取值

这里写图片描述
当 lambda 取0, 就变成了 Sarsa 的单步更新, 当 lambda 取 1, 就变成了回合更新, 对所有步更新的力度都是一样. 当 lambda 在 0 和 1 之间, 取值越大, 离宝藏越近的步更新力度越大. 这样我们就不用受限于单步更新的每次只能更新最近的一步, 我们可以更有效率的更新所有相关步了.

流程图

这里写图片描述
1.创建一个E矩阵，其大小和Q矩阵一样，用于记录每个回合中走过的路径和衰减情况（初始值为0）
2.每执行一个（S,A），对相应的E(S,A)进行一次更新（更新方式见下面）
3.每一次的Q更新是对整个Q矩阵进行更新，又矩阵形式可以表达为：

Q =

最低0.47元/天解锁文章

shixiongda

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Sarsa的进阶--Sarsa(lambda)

Sarsa-lambda今天我们会来说说强化学习中基于 Sarsa 的一种提速方法, 叫做 Sarsa-lambda.Sarsa(n) Sarsa的算法是一种在线学习法, on-policy. 但是这个 lambda 到底是什么. 其实吧, Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa...
复制链接

扫一扫