自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习:多臂老虎机python实现

更改的思路是,把老虎机看做state,有step就是交互,把策略看做agent,agent需要有选择动作的策略、更新策略参数,所以通过这样理思路就可以很好的写出来,那个run感觉也可以写在外边,小白只达到如此水平。,总觉得源代码有点重复,为什么要定义一个Solver之后再定义一个贪心的解决Solver,后面理解其他是它要讲三种方法,所以先把基础的方法定义在一个类里面。在学习这个代码的时候。以上谨是记录学习过程。

2024-03-22 15:35:35 404 1

原创 学习笔记:CliffWalking-v0环境实现Sarsa算法和Q-learning算法

Q-learing是直接选择下一状态的最优动作的价值来更新,而Sarsa是会多使用一次动作选择,由此来更新,所以只需要在train这里做一下更改就可以了。由于在学习阶段,所以想把这个Q-learning的代码改成Sarsa的,他俩本身也比较相似。根据环境要求配置好自己的环境,随后进行运行就可以了。源代码请参考(非本人写的)只需要改训练参数的那一部分。这样看的时候方便一些。以上谨是个人学习记录。

2024-03-19 22:20:21 634 1

原创 强化学习CartPole-v0代码实现遇到的问题

这一行报错TypeError: render() got an unexpected keyword argument 'render_mode' 说明更新之后的render()已经没有这个参数了,所以要把这个渲染的方式写在环境的创建当中,也就是将。意思是env.step()返回的参数不再是4个,通过查询可以发现现在的返回是5个,分别是。其中下划线 _ 的意思是不关心这个返回值。这里我们可以看到只有前面四个是我们需要的,所以可以将。这里遇到的第一个问题是。重新运行之后报新bug。

2024-03-02 21:37:28 858

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除