RL中的on-policy与off-policy的一点理解

最新推荐文章于 2024-07-12 15:56:49 发布

ICLR选手

最新推荐文章于 2024-07-12 15:56:49 发布

阅读量224

点赞数 1

分类专栏： RL- 强化学习文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_48191249/article/details/130325036

版权

RL- 强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

笔者在刚开始学习RL的时候，对on-policy和off-policy的理解也一直不是很清晰。

我用q-leaening和Sarsa作对比来介绍这两者的区别：

Q-learning伪代码：

Sarsa伪代码

可以看出这两个的不同：

1： q-learning在选择动作 A 的时候用的是 $\varepsilon$ 贪婪策略，这是算法对于环境做交互用的策略。但是在更新Q值的时候，并没有用到 $\varepsilon$ 贪婪策略，而是一个新的策略，我把他称之为b策略。b策略是在状态 S' 下，选择Q最大的那个值，这个值对应的动作A* 可能相等于 $\varepsilon$ 贪婪策略选择的动作A，也有可能不等。这是用两个策略完成agent对环境的交互和Q的更新，称之为 off-policy策略。

2： Sarsa在选择动作A 的时候用的策略也是 $\varepsilon$ 贪婪策略，但是在看更新Q的时候，所用的是基于 $\varepsilon$ 贪婪策略选出的 A‘ 来更新Q值，用同一个策略完成agent对环境的交互和对Q值的更新，称之为on-policy策略。

放几个英文解释：

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
RL中的on-policy与off-policy的一点理解

RL中的on-policy与off-policy的一点理解
复制链接

扫一扫

专栏目录

ICLR选手 CSDN认证博客专家 CSDN认证企业博客

码龄4年

9: 原创

58万+: 周排名

165万+: 总排名

9350: 访问

: 等级

120: 积分

11: 粉丝

23: 获赞

3: 评论

66: 收藏

私信

关注

热门文章

分类专栏

最新评论

TRPO算法详解
CSDN-Ada助手: 恭喜作者发布了这篇关于TRPO算法的详细解析！文章内容清晰易懂，让人读完后受益匪浅。希望作者能继续保持创作的热情，分享更多深入浅出的技术文章给读者。下一步建议可以考虑分享一些实际应用场景下的案例分析，让读者更好地理解算法的实际应用。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
TRPO算法详解
海涵丶: 太厉害了大佬，泰裤辣，受益匪浅
nn.Embedding的用法
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。