![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
RuijunLiu
这个作者很懒,什么都没留下…
展开
-
from gym.spaces import prng报错 找不到prng
gym版本问题pip install gym==0.10.5原创 2020-05-31 10:59:28 · 6854 阅读 · 2 评论 -
RL之Policy Gradient算法
特点:首先,该算法跳出传统value-based寻找最优策略的方法,取而代之的是一种通过策略迭代直接寻找最优策略的方法。其次,其可以进行在连续状态空间进行迭代,跳出Q-Learing所谓的利用Q表去计算每个状态-动作对的价值。第三他跳出了之前确定性策略的局限,选取随机策略迭代,具体详情请点击太懒了,有时间一定好好整理~...转载 2020-05-19 23:46:24 · 345 阅读 · 0 评论