这段文字主要表达了作者对DeepMind将多智能体强化学习(multi-agent reinforcement learning)研究成果发表在《自然》杂志上的不满,以及对该研究成果的简要介绍。
作者观点:
- 作者认为将研究成果发表在非开放获取的期刊上是不可取的,因为这会阻碍知识的传播,并损害研究成果的价值。
- 作者认为DeepMind将研究成果发表在《自然》杂志上只是为了追求名声和影响力,而不是为了推动科学发展。
- 作者呼吁研究人员将研究成果发表在开放获取的期刊上,以促进知识的共享和传播。
研究成果介绍:
- 该研究成果使用多智能体强化学习训练了一个能够玩星际争霸 2 的 AI 玩家,名为 AlphaStar。
- 星际争霸 2 是一款即时战略游戏,玩家需要控制不同的种族,建造建筑,生产部队,最终摧毁对手的基地。
- 该游戏拥有三个不同的种族,每个种族都有独特的玩法和策略,因此游戏平衡性很高,即使是不同种族之间的对战也能保持公平。
- 星际争霸 2 的职业玩家行动速度极快,平均每分钟的动作数量非常多,这给 AI 玩家的训练带来了巨大的挑战。
总结:
作者对 DeepMind 将其多智能体强化学习成果发表在《自然》杂志上的做法表示批评,认为这是一种为了追求名声和影响力的行为,并呼吁研究人员将成果发表在开放获取的期刊上。同时,作者简要介绍了该研究成果,即使用多智能体强化学习训练了一个能够玩星际争霸 2 的 AI 玩家。
DeepMind 推出了一个新的代理,用于攻克另一款电竞游戏:星际争霸 II。该代理使用深度强化学习和一种名为“联盟训练”的新技术,使其在该游戏的水平上达到大师级水平。摘要:许多现实世界的应用需要人工智能代理在复杂环境中与其他代理竞争和协调。作为迈向这一目标的垫脚石,星际争霸领域已成为人工智能研究的重要挑战,因为它在最困难的专业电竞中具有标志性和持久的地位,并且在原始复杂性和多代理挑战方面与现实世界相关。在十年的时间里,许多比赛中,最强大的代理简化了游戏的重要方面,利用了超人的能力,或采用了手工制作的子系统。尽管有这些优势,但之前的任何代理都没有接近于匹配顶级星际争霸玩家的整体技能。我们选择使用原则上适用于其他复杂领域的通用学习方法来应对星际争霸的挑战:一种多代理强化学习算法,它使用来自人类和代理游戏的數據,在一个不断适应的策略和反策略联盟中,每个策略和反策略都由深度神经网络表示。我们通过一系列与人类玩家的在线游戏,评估了我们的代理 AlphaStar 在完整版星际争霸 II 中的表现。AlphaStar 在所有三个星际争霸种族中都被评为大师级水平,超过了 99.8% 的官方排名的人类玩家。