Deep Reinforcement Learning

今天受同学启发,决定写日志记录一下我的毕设之旅。

题目是CS294-112 Deep Reinforcement Learning HW2:Policy Gradients

Win10+Anaconda3+Python3.6

零基础 目前用一个礼拜看了吴恩达的机器学习课程,一礼拜看了吴恩达深度学习的第一课+第二课中tensorflow那一讲

David Sliver强化学习的第一讲、李宏毅的ML Lecture 28、莫烦Python强化学习的内容

基本上还是只有一些理论概念,无法系统编程,庆幸的是作业中已经给好了架构,降低了难度。


到现在为止遇到最大的问题就是gym的环境配置,在安装好gym后用最简单的代码测试

import gym
env=gym.make('CartPole-v0')
env.reset()

报错: NotImplementedError:abstract

踩了无数坑最后在github的issue里找到了办法,很简单,在Anaconda Prompt中输入

pip install pyglet==1.2.4

因该是pyglet版本太高而导致的一些问题,回退到pyglet1.2.4就能够解决这个问题。



第二个坑是Mujoco以及Mujoco_py的安装

到现在也没有解决问题,甚至懒得总结,不知道有没有人在win64上成功安装了,如果有,希望可以告诉我。。我已经领取了mujoco的一个月免费,希望在一个月里我可以解决这个问题。(申请了学生的一年免费,但是一直没有收到邮件)





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值