第九届国际学习表征大会(ICLR 2021)是深度学习领域的国际顶级会议。在正式会议召开之前,青源Seminar于2月19日-21日成功召开了ICLR 2021 中国预讲会。回放链接:hub.baai.ac.cn/activity/details/131
本文介绍清华大学助理教授吴翼在预讲会中的主持报告。
2015年,DeepMind在《Nature》上发表的DQN打Atari的论文,被视为强化学习研究爆发的导火索。时至今日,强化学习取得的成绩不断地刷新着人类的认知。例如AlphaGo的围棋一枝独秀,AlphaFold的蛋白质预测无人能敌,OpenAI Five玩DOTA的战略布局老谋深算。另一方面,这也看出游戏环境在强化学习的发展中起着举足轻重的作用。那么,从游戏角度看,强化学习还有哪些前沿问题值得攻关?
2月19日,在青源Seminar-ICLR 2021预讲会中,来自清华大学的吴翼在强化学习论坛中,做了“从捉迷藏游戏谈起”的报告。所谓「捉迷藏」,本质上来说便是A、B双方利用各种道具,一个藏,一个找的博弈过程。
在吴翼过往的研究中,他设置一个包含红人、蓝人以及墙和箱子的捉迷藏游戏环境,通过强化学习训练,吴翼发现很多好玩的过程。而同时,吴翼表示,捉迷藏游戏也启示了许多开放性的问题,例如:
为什么看上去这么简单的策略,却需要OpenAI如此强大的计算能力加持?
如何才能学习非常复杂的可解析行为?
复杂的多智能体行为能给我们带来什么?
在训练过程中,为什么某些策略没有出现
如何才能让多个智能体进行更好的分工与合作?
......
这些开放问题广泛存在于强化学习的研究当中,具有重要的启发意义。
下面是吴翼的报告整理,以供产考。
图注:吴翼,师从人工智能泰斗、加州伯克利大学 Stuart Russell 教授,其论文 Value Iteration Network 荣获 NIPS 2016 年度最佳论文奖;多次在 ACM-ICPC 竞赛中取得好成绩,两次参加全球总决赛获得一枚银牌一枚铜牌。
整理:蒋宝尚
审校:吴 翼
01
捉迷藏游戏中的六个策略
在这里,我先介绍一个捉迷藏游戏的工作。是我在OpenAI 工作期间做的项目“Hide-and-Seek Game”,相关论文已经发表在ICLR 2020 。
具体而言,我们在这个项目中创造了一个模拟环境,环境中有许多物体,例如箱子、梯子以及小蓝人和小红人。小蓝人代表捉迷藏游戏中的“藏匿者”,小红人代表游戏中的“寻找者”。
在虚拟环境下调动上述“物体”,使用强化学习,在成千上万的平行宇宙中,让小蓝人和小红人不停的玩捉迷藏游戏。
在项目的具体设置中存在两组Agent&