TLeague训练框架:分布式高效训练多智能体算法「腾讯开源」「重磅资料」「AI核心算法」...

关注:决策智能与机器学习,深耕AI脱水干货

作者:DeepRL  来源:深度强化学习实验室

转载请联系作者

腾讯团队开发了TLeague的框架,其旨在进行大规模训练并实现几种主流的CSP-MARL算法。训练可在单台机器上或混合机器(CPU和GPU)环境集群中部署,在进行分布式训练时,TLeague可以实现高吞吐量和合理的放大。由于采用了模块化设计,因此也很容易扩展,其可以解决其他多智能体问题或实现和验证MARL算法。

基于竞争性自学(CSP)的多智能体强化学习(MARL)最近表现出了出惊人的突破。包括Dota2、《王者荣耀》《雷神之锤III》《星际争霸II》等。尽管取得了成功,但MARL训练特别需要数据,在训练过程中通常需要从环境中看到数十亿个帧,这给研究人员、工程师带来了不小的困难。TLeague的框架正是为了解决这个问题。


论文下载,公众号回复:20201205

论文链接:https://arxiv.org/abs/2011.12895v1

 https://github.com/tencent-ailab/TLeague

框架的整体结构如下图所示:


训练程序的运行方式如下:

# start
python render_template . py foobar . yml . jinja2 | kubectl apply -f -
# stop
python render_template . py foobar . yml . jinja2 | kubectl delete -f -

同样,TLeague与IMPALA和SEED最相似,即也采用Actor-Learner-InferenceServer体系结构。也就是解耦RL组件与IMPALA和SEED最相似。下面是TLeague的工作流过程

其中使用TLeague框架时需要的包环境

  • TLeague: the main logic of Competitive SelfPlay MultiAgent Reinforcement Learning.

  • TPolicies: a lib for building Neural Net used in RL and IL.

  • Arena: a lib of environments and env-agent interfaces. See the docs therein for how to install.

实现效果如下:

代码结构

安装依赖环境

'gym','joblib','numpy','scipy','pyzmq','paramiko','libtmux','abslpy','xlrd','pyyaml','psutil','namedlist',

安装过程

pip install -e .

代码测试执行过程:

历史精华好文

交流合作

请加微信号:yan_kylin_phenix注明姓名+单位+从业方向+地点,非诚勿扰。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值