RL强化学习基础|Q learning|test on FrozenLake代码小实验

最新推荐文章于 2024-07-12 16:16:27 发布

Sparks Fly ~

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量249

点赞数 7

分类专栏：强化学习小实验文章标签： python 机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52797432/article/details/136408651

版权

强化学习小实验专栏收录该内容

1 篇文章 0 订阅

订阅专栏

代码：https://github.com/NandaYanxr/RLtutorial/tree/main/FrozenLakeTest

youtube大佬的详细讲解：https://www.youtube.com/watch?v=1W_LOB-0IEY

=================================================================

1. install library: gymnasium; pygame

2. Q-learning

原理：

$Q(S^{_{t}},A^{_{t}})\leftarrow Q(S^{_{t}},A^{_{t}})+\alpha [R^{_{t+1}}+\gamma \cdot \displaystyle max_{a} Q(S^{_{t+1}},a)-Q(S^{_{t}},A^{_{t}})]$

3. 贪心策略 $\epsilon - greedy$

探索与利用；epsilon指的是选择探索的改了吧，大部分时候探索的机会很小。

$A^{_{t}}=\binom{max Q(a); with Probability <1-\epsilon }{Any Action a; else}$

#伪代码
p=random()

if p<epsilon
    pull random action
else
    pull current-best action

一般还会让epsilon随时间衰减。

4.在Frozen Lake上实验

Frozen Lake游戏的设定是有slippery （有滑动，即env.step(action)不一定是指的前面选出来的action，有一定概率是其他的方向）和 not slippery（不滑动，即env.step(action)就是指的前面选出来的action，类似于deterministic policy），

（1）先试验无滑动的情况:is_slippery=False;

main函数线运行15000 次

run(15000)

图如下，根据小人的状态有不同的情况：（图表示每100个episode的累计奖励）

然后打开仿真环境看看小人怎么跑的

run(1,is_training=false,render=true)

(2)测试考虑滑动的情况

可以看到明显的reward变低了，因为有一定的随机性

关注

7
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
RL强化学习基础|Q learning|test on FrozenLake代码小实验

Frozen Lake游戏的设定是有slippery （有滑动，即env.step(action)不一定是指的前面选出来的action，有一定概率是其他的方向）和 not slippery（不滑动，即env.step(action)就是指的前面选出来的action，类似于deterministic policy），图如下，根据小人的状态有不同的情况：（图表示每100个episode的累计奖励）epsilon指的是选择探索的改了吧，大部分时候探索的机会很小。main函数线运行15000 次。
复制链接

扫一扫

专栏目录

Sparks Fly ~ CSDN认证博客专家 CSDN认证企业博客

码龄4年

12: 原创

122万+: 周排名

10万+: 总排名

4390: 访问

: 等级

195: 积分

46: 粉丝

64: 获赞

7: 评论

60: 收藏

私信

关注

热门文章

分类专栏

强化学习小实验 1篇

最新评论

OPE in RL|强化学习中的离策略评估方法
Sparks Fly ~: https://github.com/hari-sikchi/safeRL hcope link
tf/encoder|Error合集
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
RL强化学习基础|Q learning|test on FrozenLake代码小实验
CSDN-Ada助手: 恭喜用户发布了第9篇博客！标题中提到了Q learning在强化学习中的应用，以及在FrozenLake环境中的代码小实验，内容相当丰富和有趣。希望用户继续坚持创作，可以考虑分享更多关于RL强化学习算法的实践经验或者进阶内容，让读者可以更深入地了解这个领域。期待用户的下一篇博客！
强化学习sepsis论文复现|02 数据准备：在postgresql本地安装mimic-iii数据集
Sparks Fly ~: https://blog.csdn.net/2301_78042158/article/details/130617621?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-1-130617621-blog-134451815.235^v43^pc_blog_bottom_relevance_base9&spm=1001.2101.3001.4242.2&utm_relevant_index=4
python pickle
CSDN-Ada助手: 恭喜您写了这篇关于“python pickle”的博客！持续创作真的很棒，我非常期待您的下一篇文章。如果可能的话，我建议您可以尝试写一些关于Python中其他常用模块的文章，比如numpy或者pandas，这样可以让更多的读者受益。不过话说回来，我知道您一定已经有自己的计划，期待您更多精彩的文章！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。