RL强化学习基础|Q learning|test on FrozenLake代码小实验

代码:https://github.com/NandaYanxr/RLtutorial/tree/main/FrozenLakeTest

youtube大佬的详细讲解:https://www.youtube.com/watch?v=1W_LOB-0IEY

=================================================================

1. install library: gymnasium; pygame

2. Q-learning 

原理:

Q(S^{_{t}},A^{_{t}})\leftarrow Q(S^{_{t}},A^{_{t}})+\alpha [R^{_{t+1}}+\gamma \cdot \displaystyle max_{a} Q(S^{_{t+1}},a)-Q(S^{_{t}},A^{_{t}})]

3. 贪心策略 \epsilon - greedy 

探索与利用;epsilon指的是选择探索的改了吧,大部分时候探索的机会很小。

A^{_{t}}=\binom{max Q(a); with Probability <1-\epsilon }{Any Action a; else}

#伪代码
p=random()

if p<epsilon
    pull random action
else
    pull current-best action

一般还会让epsilon随时间衰减。

4.在Frozen Lake上实验

Frozen Lake游戏的设定是有slippery (有滑动,即env.step(action)不一定是指的前面选出来的action,有一定概率是其他的方向)和 not slippery(不滑动,即env.step(action)就是指的前面选出来的action,类似于deterministic policy),

(1)先试验无滑动的情况:is_slippery=False;

main函数线运行15000 次

run(15000)

图如下,根据小人的状态有不同的情况:(图表示每100个episode的累计奖励)

然后打开仿真环境看看小人怎么跑的

run(1,is_training=false,render=true)

(2)测试考虑滑动的情况

可以看到明显的reward变低了,因为有一定的随机性

  • 7
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值