论文链接:https://www.aminer.cn/pub/6164fcc15244ab9dcb24cf7a?f=cs
在多项国际赛事中夺得冠军则是指,TiKick在单智能体控制和多智能体控制上均取得了SOTA性能,并且还是首次实现同时操控十个球员完成整个足球游戏。
这支强大的AI团队是如何训练出来的呢?
从单智能体策略中进化出的多智能体足球AI
在此之前,先简单了解一下训练所用的强化学习环境,也就是这个足球游戏:Google Research Football(GRF)。
它由谷歌于2019年发布,提供基于物理的3D足球模拟,支持所有主要的比赛规则,由智能体操控其中的一名或多名足球运动员与另一方内置AI对战。
在由三千步组成的上下半场比赛中,智能体需要不断决策出移动、传球、射门、盘球、铲球、冲刺等19个动作完成进球。
在这样的足球游戏环境中进行强化学习难度有二:
一是因为多智能体环境,也就是一共10名球员(不含守门员)可供操作,算法需要在如此巨大的动作空间中搜索出合适的动作组合;
二是大家都知道足球比赛中一场进球数极少,算法因此很难频繁获得来自环境的奖励,训练难度也就大幅增大。
而清华大学此次的目标是控制多名球员完成比赛。
他们先从Kaggle在2020年举办的GRF世界锦标赛中,观摩了最终夺得冠军的WeKick团队数万场的自我对弈数据,使用离线强化学习方法从中学习。
AMiner,让AI帮你理解科学!https://www.aminer.cn