学习笔记：CliffWalking-v0环境实现Sarsa算法和Q-learning算法

我还有点头发

已于 2024-03-21 13:01:53 修改

阅读量645

点赞数 24

分类专栏： RL 文章标签：学习笔记

于 2024-03-19 22:20:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47438023/article/details/136857143

版权

RL 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

源代码请参考（非本人写的）GitHub - XinJingHao/Deep-Reinforcement-Learning-Algorithms-with-Pytorch: Clean, Robust, and Unified PyTorch implementation of popular DRL Algorithms (Q-learning, Duel DDQN, PER, C51, Noisy DQN, PPO, DDPG, TD3, SAC, ASL)

根据环境要求配置好自己的环境，随后进行运行就可以了。

tensorboard的训练图如下：

这里有个小技巧是，原来的代码创建的日志名称有点长，如果想要看这个图的话，可以直接直接把那个路径写成：

log_dir='logs'

这样看的时候方便一些。

由于在学习阶段，所以想把这个Q-learning的代码改成Sarsa的，他俩本身也比较相似。

只需要改训练参数的那一部分

Q-learing是直接选择下一状态的最优动作的价值来更新，而Sarsa是会多使用一次动作选择，由此来更新，所以只需要在train这里做一下更改就可以了。

以上谨是个人学习记录。

我还有点头发

关注

24
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
学习笔记：CliffWalking-v0环境实现Sarsa算法和Q-learning算法

Q-learing是直接选择下一状态的最优动作的价值来更新，而Sarsa是会多使用一次动作选择，由此来更新，所以只需要在train这里做一下更改就可以了。由于在学习阶段，所以想把这个Q-learning的代码改成Sarsa的，他俩本身也比较相似。根据环境要求配置好自己的环境，随后进行运行就可以了。源代码请参考（非本人写的）只需要改训练参数的那一部分。这样看的时候方便一些。以上谨是个人学习记录。
复制链接

扫一扫

专栏目录

我还有点头发 CSDN认证博客专家 CSDN认证企业博客

码龄4年

3: 原创

167万+: 周排名

18万+: 总排名

1964: 访问

: 等级

84: 积分

34: 粉丝

50: 获赞

2: 评论

20: 收藏

私信

关注

热门文章

分类专栏

RL 3篇

最新评论

强化学习：多臂老虎机python实现
CSDN-Ada助手: 恭喜作者在强化学习领域的探索，多臂老虎机的Python实现无疑为读者提供了很好的学习参考。希望作者能够继续保持创作的热情，不断探索更多有趣的主题，让读者受益匪浅。或许下一步可以考虑深入研究强化学习在实际问题中的应用，为读者提供更加丰富的内容。期待作者的更多精彩作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
学习笔记：CliffWalking-v0环境实现Sarsa算法和Q-learning算法
CSDN-Ada助手: 很高兴看到你写了第二篇博客，对于学习笔记中实现Sarsa算法和Q-learning算法的比较和代码改写，我觉得你做得很不错！继续保持学习和记录的习惯，这对于提升自己的编程能力和理解算法原理都非常有帮助。除了实现算法的过程，你可以尝试深入了解强化学习中的其他算法，比如深度强化学习（Deep Reinforcement Learning）或者增强学习中的策略优化方法，这些都是很有挑战性但也很有意思的领域。另外，可以尝试在实现算法的过程中优化代码结构，提高代码的可读性和效率，这对于以后的项目开发也会有很大帮助。继续加油，期待看到更多有关强化学习和算法实现的分享！祝你学习进步，创作顺利！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。