我还有点头发-CSDN博客

原创强化学习：多臂老虎机python实现

更改的思路是，把老虎机看做state，有step就是交互，把策略看做agent，agent需要有选择动作的策略、更新策略参数，所以通过这样理思路就可以很好的写出来，那个run感觉也可以写在外边，小白只达到如此水平。，总觉得源代码有点重复，为什么要定义一个Solver之后再定义一个贪心的解决Solver，后面理解其他是它要讲三种方法，所以先把基础的方法定义在一个类里面。在学习这个代码的时候。以上谨是记录学习过程。

2024-03-22 15:35:35 720 1

原创学习笔记：CliffWalking-v0环境实现Sarsa算法和Q-learning算法

Q-learing是直接选择下一状态的最优动作的价值来更新，而Sarsa是会多使用一次动作选择，由此来更新，所以只需要在train这里做一下更改就可以了。由于在学习阶段，所以想把这个Q-learning的代码改成Sarsa的，他俩本身也比较相似。根据环境要求配置好自己的环境，随后进行运行就可以了。源代码请参考（非本人写的）只需要改训练参数的那一部分。这样看的时候方便一些。以上谨是个人学习记录。

2024-03-19 22:20:21 935 1

原创强化学习CartPole-v0代码实现遇到的问题

这一行报错TypeError: render() got an unexpected keyword argument 'render_mode' 说明更新之后的render()已经没有这个参数了，所以要把这个渲染的方式写在环境的创建当中，也就是将。意思是env.step()返回的参数不再是4个，通过查询可以发现现在的返回是5个，分别是。其中下划线 _ 的意思是不关心这个返回值。这里我们可以看到只有前面四个是我们需要的，所以可以将。这里遇到的第一个问题是。重新运行之后报新bug。

2024-03-02 21:37:28 1399

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习：多臂老虎机python实现

原创 学习笔记：CliffWalking-v0环境实现Sarsa算法和Q-learning算法

原创 强化学习CartPole-v0代码实现遇到的问题

空空如也

空空如也

原创强化学习：多臂老虎机python实现

原创学习笔记：CliffWalking-v0环境实现Sarsa算法和Q-learning算法

原创强化学习CartPole-v0代码实现遇到的问题