![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
海木石
走一步,再走一步;累了就休息一下,但不能停。
展开
-
fig, ax = plt.subplots() 创建的ax如何设置横纵坐标轴的名称
fig, ax = plt.subplots()ax.set_title('total_loss')ax.set_ylabel('total_loss')ax.set_xlabel('episode')原创 2021-03-08 09:47:29 · 5094 阅读 · 0 评论 -
强化学习之Sarsa算法最简单的实现代码-(环境:“CliffWalking-v0“悬崖问题)
1、算法简介直接上伪代码:伪代码解释:第一行:①设置动作空间A和状态空间S,以后你agent只能执行这A中有的动作,你环境的状态也就S中这么些; ②初始化Q表格,也就是表格的横坐标为动作,纵坐标为状态,每个格子里面的值表示:纵坐标对应的状态s下,执行横坐标对应的动作a,后环境反馈回来的奖励值r(注意啊,这个奖励值先开是都初始化为0啥的,然后不断的episode,这整个表不断的更新,不断的确定哪个状态执行哪个动作奖励是多少,宏观上就是agent不断的确定,不断的...原创 2021-03-03 16:05:10 · 3736 阅读 · 6 评论 -
强化学习代码从零开始学习-1
知识点:gym的核心接口是environment。环境中提供一下几种核心的方法:①reset():重置环境状态,回到初始环境,方便开始下一回合训练。②step(action):推进一个时间步长,粗俗的理解就是,你把这个动作action,作用到环境中,然后这个方法返回环境被作用后的一些状态啥玩意等东西。传入的参数是一个要执行到环境中的动作action,返回的参数有四个: <1>observation (这是一个对象):对环境的这次观测; <...原创 2021-03-01 14:17:47 · 1402 阅读 · 1 评论