2021-03-07

对抗环境下的多智能体强化学习(Cooperative MARL)

常用仿真环境

  1. StarCarft II (星际争霸2) https://zhuanlan.zhihu.com/p/28471863
  2. OpenAI: multiagent-emergence(让智能体玩捉迷藏) https://github.com/openai/multi-agent-emergence-environments
  3. Pommerman 环境(炸弹人)https://www.pommerman.com/
  4. Google Research Football(踢足球)https://github.com/google-research/football
  5. 其他还有很多,一篇知乎总结得很好https://www.zhihu.com/question/332942236/answer/1159244275

常用算法思路

  1. naive方法:在一个对抗环境中,使用online learning训练两套不同的RL系统。代表作品:OpenAI在starWar II游戏中训练的智能AI: https://zhuanlan.zhihu.com/p/102749648,DeepMind的dota2 AI设计,alpha-zero (总之,现在很多攻防对抗类游戏AI的设计基本都有MARL的参与,腾讯/谷歌/微软等大公司有很多相关论文)
  2. 博弈论角度:通过设计奖励函数构建零和博弈。将两套MARL看作一套MARL系统的两个部分,结合起来训练。但是奖励函数会精心设计,即某一个状态中,其中一个Multi-agent团队reward增加,其敌对Multi-agent团队reward必须减少,最终达到Nash均衡(纳什均衡:即在一策略组合中,所有的参与者面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的。此时的状况既不是基于个人的利益,也不是基于整体的效果,但是在概率上是最容易产生的结果,)
  3. 在攻防方面的相关理论有:微分对策(Differential Games),最优控制等https://www.docin.com/p-2398031595.html
  4. 多机合作算法:MAPPO,MADDPG等方法
  5. 两个玩家零和博弈:Minimax-Q等方法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值