环境是强化学习的核心要素之一。不同的环境一直是研究新的强化学习算法的动力。但是让智能体和真实环境交互的代价是很大的,不但费时费力,甚至有的时候根本不可能进行交互。
现在的多智能体强化学习和强化学习早期境遇很像,只有较少的环境可用。另外在不同的智能体之间分享信息的设置范围可能很广,有些环境涉及通信,有些共享联合奖励,有些共享全局状态。
星际争霸
作为一款复杂的即时战略游戏,星际争霸2受到了很大的关注,《Learning to communicate with deep multi-agent reinforcement learning》《QMIX: monotonic value function factorisation for deep multi-agent reinforcement learning》等很多论文都使用星际争霸2作为环境。
注:这里介绍的环境SMAC与Deepmind的pysc2有所不同,它更关注分散的微观管理方法,游戏中的每个单位都是受单独的强化学习智能体控制。