RL强化学习基础|Q learning|test on FrozenLake代码小实验
Frozen Lake游戏的设定是有slippery (有滑动,即env.step(action)不一定是指的前面选出来的action,有一定概率是其他的方向)和 not slippery(不滑动,即env.step(action)就是指的前面选出来的action,类似于deterministic policy),图如下,根据小人的状态有不同的情况:(图表示每100个episode的累计奖励)epsilon指的是选择探索的改了吧,大部分时候探索的机会很小。main函数线运行15000 次。
原创
2024-03-02 01:32:44 ·
237 阅读 ·
1 评论