【第1重磅开源】Paper+Code:腾讯开源TLeague框架，基于竞争博弈的分布式多智能体强化学习框架...

深度强化学习实验室

于 2020-12-01 07:30:00 发布

阅读量766

点赞数 1

文章标签：人工智能强化学习深度学习编程语言计算机视觉

本文链接：https://blog.csdn.net/deeprl/article/details/110459520

版权

深度强化学习实验室

来源：https://arxiv.org/abs/2011.12895v1

编辑：DeepRL

基于竞争性自学（CSP）的多智能体强化学习（MARL）最近表现出了出惊人的突破。包括Dota2、《王者荣耀》《雷神之锤III》《星际争霸II》等。尽管取得了成功，但MARL训练特别需要数据，在训练过程中通常需要从环境中看到数十亿个帧，这给研究人员、工程师带来了不小的困难。为了解决这个问题，腾讯团队开发了TLeague的框架，其旨在进行大规模训练并实现几种主流的CSP-MARL算法。训练可在单台机器上或混合机器（CPU和GPU）环境集群中部署，在进行分布式训练时，TLeague可以实现高吞吐量和合理的放大。由于采用了模块化设计，因此也很容易扩展，其可以解决其他多智能体问题或实现和验证MARL算法。

框架的整体结构如下图所示：

训练程序的运行方式如下：

# start
python render_template . py foobar . yml . jinja2 | kubectl apply -f -
# stop
python render_template . py foobar . yml . jinja2 | kubectl delete -f -

同样，TLeague与IMPALA和SEED最相似，即也采用Actor-Learner-InferenceServer体系结构。也就是解耦RL组件与IMPALA和SEED最相似。下面是TLeague的工作流过程。

其中使用TLeague框架时需要的包环境

TLeague: the main logic of Competitive SelfPlay MultiAgent Reinforcement Learning.
TPolicies: a lib for building Neural Net used in RL and IL.
Arena: a lib of environments and env-agent interfaces. See the docs therein for how to install.

实现效果如下：

代码结构

安装依赖环境

'gym','joblib','numpy','scipy','pyzmq','paramiko','libtmux','abslpy','xlrd','pyyaml','psutil','namedlist',

安装过程

pip install -e .

代码测试执行过程：

论文链接：https://arxiv.org/abs/2011.12895v1

https://github.com/tencent-ailab/TLeague

完

总结1：周志华 || AI领域如何做研究-写高水平论文

总结2：全网首发最全深度强化学习资料(永更)

总结3: 《强化学习导论》代码/习题答案大全

总结4：30+个必知的《人工智能》会议清单

总结5: 万字总结 || 强化学习之路

总结6：万字总结 || 多智能体强化学习(MARL)大总结

总结7：深度强化学习理论、模型及编码调参技巧

总结8：深度强化学习理论、模型及编码调参技巧

总结9：分层强化学习(HRL)全面总结

完

深度强化学习实验室

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
【第1重磅开源】Paper+Code:腾讯开源TLeague框架，基于竞争博弈的分布式多智能体强化学习框架...

深度强化学习实验室来源：https://arxiv.org/abs/2011.12895v1编辑：DeepRL基于竞争性自学（CSP）的多智能体强化学习（MARL）最近表现出了出惊人的突...
复制链接

扫一扫