我们使用以下六个分类标准:
- 智能体视角:该标准决定了研究是关注单个独立运作的智能体,还是多个智能体在共享环境中相互作用。
- 单智能体:研究集中于单个智能体在孤立环境中学习和决策,而不考虑其他智能体的行为或存在。例如,Brax 和 Gymnax 是为单智能体强化学习任务设计的。
- 多智能体:研究涉及多个智能体共存于同一环境中并进行学习。这些智能体可以互动、合作或竞争,从而产生更复杂的动态和学习挑战。例如,SMAC、PettingZoo 和 Gigastep 被设计用于支持多智能体强化学习研究。
- 环境动态:该标准描述了环境行为的可预测性。
- 确定性:在确定性环境中,下一状态完全由当前状态和智能体采取的动作决定。不涉及随机性,在相同的初始条件下,环境将始终以相同的方式演变。SMAC v1 是确定性环境的一个例子。
- 随机性:在随机环境中,环境从一个状态转换到另一个状态时存在固有的随机性或不可预测性。即使状态和动作相同,由于随机事件或概率转换,下一状态也可能不同。SMAC v2 和 Gigastep 引入了随机性,使学习过程更具挑战性和现实性。