强化学习4——无模型控制model-free control （On-Policy learning：Sarsa和Off-policy learning：Q-learning）

最新推荐文章于 2023-08-23 15:34:05 发布

菜且凶残_2017

最新推荐文章于 2023-08-23 15:34:05 发布

阅读量1.1k

点赞数

分类专栏：强化学习文章标签：机器学习人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38800089/article/details/111186566

版权

强化学习专栏收录该内容

16 篇文章 6 订阅

订阅专栏

文章目录

前言
- 无模型控制

前言

本文是学习周博雷老师的强化学习课程的心得体会。
雷大佬的GItHub

无模型控制

问题

当我们不知道 MDP 模型的情况下，如何优化价值函数，得到最佳的策略。

思路

这里和有模型的控制策略的估计有一个不同是，我们这里使用MC方法来估算Q函数。其余的和无模型的控制是一样的。

大概思路是：初始化一个Q和 $\pi$ ，然后不停的迭代更新Q和 $\pi$ 。注意这里与有模型的控制的区别是，我们直接迭代的Q而不是V，（这是因为没有模型）。

方法

On-Policy learning

On-Policy就是使用同一个police，在迭代中不断的更新。

MC

步骤1：通过MC方法估计Q-table；

MC方法的精髓是采样，这里利用 $\epsilon-Greedy Exploration$ 方法进行采样，选取每一步的动作。

在这里插入图片描述

步骤2：根据估计出的Q-table改善 $\pi$ ；

具体步骤如下：

在这里插入图片描述

具体算法如下：

在这里插入图片描述

Sarsa

sarsa是将control loop中的MC换成TD。

在这里插入图片描述

在这里插入图片描述

Off-policy learning

Off-policy learning有两个policy，一个探索policy和一个目标policy，我们用探索policy进行采样计算Q，然后用算出的Q来更新目标policy。

优点：

可以利用别的方面的策略更新另一个方面的策略，比如将人的运动转移到机器人身上。
可以重复利用产生过的policy，节省计算资源。

Q-learning

在这里插入图片描述

On-Policy learning 和 Off-policy learning的区别

On-Policy learning：

始终只有一个policy，只是在迭代中不停的更新。

学出的策略比较保守。

Off-policy learning：

这里有一个探索policy和一个目标policy，我们用探索policy进行采样计算Q，然后用算出的Q来更新目标policy。

学出的策略比较激进。

sarsa和Q-learning的区别：

在这里插入图片描述

菜且凶残_2017

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习4——无模型控制model-free control （On-Policy learning：Sarsa和Off-policy learning：Q-learning）

文章目录前言无模型控制问题思路方法On-Policy learningMCSarsaOff-policy learningQ-learningOn-Policy learning 和 Off-policy learning的区别前言本文是学习周博雷老师的强化学习课程的心得体会。雷大佬的GItHub无模型控制问题当我们不知道 MDP 模型的情况下，如何优化价值函数，得到最佳的策略。思路这里和有模型的控制策略的估计有一个不同是，我们这里使用MC方法来估算Q函数。其余的和无模型的控制是一样
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。