![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
PyTorch
文章平均质量分 60
海木石
走一步,再走一步;累了就休息一下,但不能停。
展开
-
强化学习之Sarsa算法最简单的实现代码-(环境:“CliffWalking-v0“悬崖问题)
1、算法简介直接上伪代码:伪代码解释:第一行:①设置动作空间A和状态空间S,以后你agent只能执行这A中有的动作,你环境的状态也就S中这么些; ②初始化Q表格,也就是表格的横坐标为动作,纵坐标为状态,每个格子里面的值表示:纵坐标对应的状态s下,执行横坐标对应的动作a,后环境反馈回来的奖励值r(注意啊,这个奖励值先开是都初始化为0啥的,然后不断的episode,这整个表不断的更新,不断的确定哪个状态执行哪个动作奖励是多少,宏观上就是agent不断的确定,不断的...原创 2021-03-03 16:05:10 · 3736 阅读 · 6 评论 -
强化学习代码从零开始学习-1
知识点:gym的核心接口是environment。环境中提供一下几种核心的方法:①reset():重置环境状态,回到初始环境,方便开始下一回合训练。②step(action):推进一个时间步长,粗俗的理解就是,你把这个动作action,作用到环境中,然后这个方法返回环境被作用后的一些状态啥玩意等东西。传入的参数是一个要执行到环境中的动作action,返回的参数有四个: <1>observation (这是一个对象):对环境的这次观测; <...原创 2021-03-01 14:17:47 · 1402 阅读 · 1 评论 -
pytorch学习之---squeeze()和unsqueeze()函数功能及使用
首先这个squeeze单词啥意思:1.squeeze(1)和squeeze(-1)作用:两者的效果一样,都是给张量tensor降维,但不是啥张量都可以用这两个函数来降维,它只能降维一种情况下张量的维度。就是我的张量tensor是一个n*1维度的张量,例如:张量[[1], [2], [3]]是一个3*1维的,调用这两个函数后效果如图:但是如果不是n*1的这种2维张量的话,如本就是1维的,或者m*n(其中m和n都是大于1的)这种的话,调用这个函数一点效果没有。2.squeeze(0)原创 2021-01-31 10:41:11 · 46228 阅读 · 4 评论