![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
槑槑紫
一枚算法工程师
热爱算法
想要用算法改变世界
展开
-
深度强化学习算法PPO训练CartPole
return# 蒙特卡洛求优势函数,方差大,时序差分求优势函数,偏差大,一般都采用GAE(蒙特卡洛和时序差分的结合)# 磨菇书采用的是蒙特卡洛if done:print('状态空间维度:', state_n)print('动作空间维度:', action_n)steps = []if done:breakif done:breakelse:steps = []if done:break。原创 2023-08-21 09:23:44 · 596 阅读 · 1 评论 -
深度强化学习算法PPO训练Pendulum
returnadv = 0print('状态空间维度:', state_n)print('动作空间维度:', action_n)steps = []if done:breakif done:breakelse:steps = []if done:break。原创 2023-08-21 09:39:19 · 295 阅读 · 1 评论 -
深度强化学习gym和pytorch安装最全教程
深度强化学习gym和pytorch安装最全教程原创 2023-08-07 15:31:44 · 370 阅读 · 1 评论 -
深度强化学习算法DQN训练CartPole
else:returnprint('状态空间维度:', state_n)print('动作空间维度:', action_n)steps = []if done:breaksteps = []if done:break。原创 2023-08-21 09:16:40 · 120 阅读 · 1 评论 -
tensorflow2.0和tensorlayer2.1安装教程
tensorflow2.0和tensorlayer2.1安装教程原创 2023-07-24 09:33:26 · 291 阅读 · 1 评论