【OpenAI-Maddpg】训练运行

环境选项:
--scenario: MPE 中的环境 (默认: "simple")
--max-episode-len 环境的每个周期的长度 (默认: 25)
--num-episodes 训练周期总数 (默认: 60000)
--num-adversaries: 环境中的 adversary 数量 (默认: 0)
--good-policy: 环境中 good policy 算法 (默认: "maddpg"; 选项: {"maddpg", "ddpg"})
--adv-policy: 环境中 adversary policy 算法 (默认: "maddpg"; 选项: {"maddpg", "ddpg"})

核心训练参数:
--lr: 学习速率 (默认: 1e-2)
--gamma: 损失因子 (discount factor) (默认: 0.95)
--batch-size: Batch 大小 (默认: 1024)
--num-units: 多层神经网络层数 (默认: 64)

保存
--exp-name: 实验的名称,用以保存结果。 (默认: None)
--save-dir: 保存训练结果和模型的位置 (默认: "/tmp/policy/")
--save-rate: 模型将会以这个周期频率进行保存 (默认: 1000)
--load-dir: 载入训练结果和模型的位置 (默认: "")

评估
--restore: 恢复在load-dir的训练结果, 并且继续训练 (默认: False)
--display: 展示训练结果, 但不继续训练 (默认: False)
--benchmark: 对训练结果进行基准评估, 保存结果到 benchmark-dir 文件夹 (默认: False)
--benchmark-iters: 执行基准评估的训练周期 (默认: 100000)
--benchmark-dir: 存放基准数据的目录 (默认: "./benchmark_files/")
--plots-dir: 存放训练曲线的目录 (默认: "./learning_curves/")

1、首先需要在experiments下自建learning_curves和benchmark_files文件夹,否则会报错或者模型数据无法保存;文件名也可以更改为exp1等
(项目目录:E:\PycharmProjects\pythonProject\maddpg-master
(1)E:\tmp\policy :保存了训练结果和模型
(2)项目/experiments/learning_curves:保存了训练曲线
(3)项目/experiments/benchmark_files:保存了对训练结果进行评估

2、训练

python train.py --scenario simple_world_comm --num-episodes 60000 --exp-name exp1
或
在文件中直接更改参数,然后run .py(display,restore,benchmark训练时要为False,否则会读取以前的训练数据,继续训练可以用restore)

继续训练:

python train.py --scenario simple_world_comm --restore --num-episodes 60000
或
在文件中直接更改参数

此时的
在这里插入图片描述
3、评估

python train.py --scenario simple_world_comm --benchmark
或
在文件中直接更改参数benchmark  default = True

在这里插入图片描述
4、可视化结果

python train.py --scenario simple_world_comm --display
或
在文件中直接更改参数display default = True

5、显示训练曲线
后续。。

  • 7
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 15
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值