![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
Lovemyse1f
已毕业,未从事以前方向,悉知!
展开
-
TypeError: zip argument #N must support iteration
观察: 正常的replaybuffer中每次都会存None,而添加的HER的额外样本后出现了这个问题. 打印batch发现存在很多的none样本. 原本buffer采用数组,后改为队列存储,当满的时候会将最先进去的样本数组踢出,故尝试取消None空样本.跑了20eps没有问题. 错误定位: state, action, reward, next_state, done = map(np.stack, zip(*batch)) #numpy.stack(arrays, axis=0)沿着新轴连接数组的序列。每原创 2021-05-11 14:15:11 · 1678 阅读 · 1 评论 -
强化学习术语即概念理解|未持续更新
最大熵原理 最大熵原理其实就是指包含已知信息,不做任何未知假设,把未知事件当成等概率事件处理。 骰子有6个面,你不知道下一个会是哪一面,你所知道的是骰子各面概率和为1(已知信息、约束条件)。 而在现实中,你知道骰子各面的概率是1/6(不做任何假设,未知事件做等概率处理) 这时,你就知道最大熵是多少了。 若约束条件增加,其他的未知条件还做等概率处理(需要用条件极值求解)。 信息熵 一个系统的信息熵其实就是系统中每一个事件的概率乘以log概率,然后把所有事件相加后取负数。 因为概率总是在0-1之间,所以.原创 2020-07-21 10:38:38 · 346 阅读 · 0 评论