自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

KGV093的博客

Revelations and heartaches, make you realize.

嘉伟森的猫 CSDN认证博客专家 CSDN认证企业博客

码龄7年

408: 原创

4万+: 周排名

226万+: 总排名

16万+: 访问

: 等级

5434: 积分

39: 粉丝

35: 获赞

59: 评论

195: 收藏

私信

关注

热门文章

分类专栏

最新评论

基于PyTorch的GRU网络实现股票价格预测
小毅学代码: 博主，可以分享一下数据吗？
Deep Reinforcement Learning入门 - DQN/Policy Gradient实现LunarLander-v2
嘉伟森的猫: 可能跟它环境具体定义reward有关系，可能边界判定不是很严谨，如果需要的话建议细看一下对应的Gym Environment源码
Deep Reinforcement Learning入门 - DQN/Policy Gradient实现LunarLander-v2
你是谁0206: 为什么会出现落在里面了反而reward低的情况呢？有时候罗在外面reward反而更高
Deep Reinforcement Learning入门 - DQN/Policy Gradient实现LunarLander-v2
嘉伟森的猫: 这个似乎是因为env.reset()返回类型不是预期的ndarray，可以逐行debug一下，博主已经有一段时间没有手写过训练过程了（一般用stable-baselines3等），抱歉~
Deep Reinforcement Learning入门 - DQN/Policy Gradient实现LunarLander-v2
jack-pudding134: 我在复制了你的代码，但出现如下报错： --------------------------------------------------------------------------- TypeError Traceback (most recent call last) Cell In[70], line 2 1 agent = Agent() ----> 2 agent.train(700) 3 agent.test(100) 5 env.close() Cell In[69], line 124, in Agent.train(self, episodes) 122 total_reward = 0 123 cur_state = env.reset() --> 124 cur_state = torch.from_numpy(cur_state) 125 for tim in count(): 126 action = self.get_action(cur_state) TypeError: expected np.ndarray (got tuple) 我是初学者，不知道这是什么意思，请问有人能解答一下吗？万分感谢！！！

最新文章

DL/RL自学笔记

关注

略略略

关注数：文章数：10 文章阅读量：17883 文章收藏量：125

作者: 嘉伟森的猫

NYU Shanghai本科，MBZUAI机器学习硕士，深度学习/强化学习菜鸡

展开