Delay-Aware Multi-Agent Reinforcement Learning代码分析

github.com,终于跑出来了我研究生第一个自己跑的python代码吧,虽然还是没有看懂是什么意思,但是代码能运行了,就不错了,説一下文章的几个小的bug。

1 在delay_aware.py中经验回放池中的obs维度改变了==》

replay_buffer = ReplayBuffer(config.buffer_length, maddpg.nagents,
                             [obsp.shape[0] + delay_step*5 for obsp in env.observation_space],
                             [acsp.shape[0] if isinstance(acsp, Box) else acsp.n
                              for acsp in env.action_space])

这里面我也改过maddpg中的观察维度。但是下面的代码会报错

2 把环境的观察维度obs改了

zero_agent_actions = [np.array([0.0, 0.0,0.0, 0.0,0.0]) for _ in range(maddpg.nagents)]

3 agent.py中的step函数,只有gpu的写法没有cpu的写法。

4 在创建环境中, 把

make_parallel_env(env_id, n_rollout_threads, seed, discrete_action)中的discrete_action去掉了,在这个方法中的所有discrete_action都去掉了。

parser.add_argument("--env_id", default='simple_tag', type=str, help="Name of environment")
parser.add_argument("--model_name", default='model1', type=str,
                    help="Name of directory to store " +
                         "model/training contents") 

加上相应的参数即可

之前在运行代码时,我在配置OpenAI maddpg环境时,我在运行MPE环境中python bin/interactive.py --scenario simple.py,出现这个错误 File "D:\Programfiles\anaconda\envs\maddpg\lib\site-packages\gym\core.py", line 111, in render raise NotImplementedError ,感觉是环境安装有问题,我换自己的电脑就好使了,如果以后知道原因再説吧。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值