清华吴翼:从捉迷藏游戏说起,谈谈强化学习的六个开放问题

清华大学吴翼在ICLR 2021预讲会上探讨了强化学习在捉迷藏游戏中的应用,揭示了多智能体强化学习中出现的六种策略和反策略。游戏启发了一系列开放问题,包括样本复杂性、学习复杂行为、策略迁移、环境影响策略生成、智能体合作以及探索多样化策略的可能性。通过奖励随机化技术,RPG算法在复杂游戏中发现了多种意料之外的策略行为。
摘要由CSDN通过智能技术生成

第九届国际学习表征大会(ICLR 2021)是深度学习领域的国际顶级会议。在正式会议召开之前,青源Seminar于2月19日-21日成功召开了ICLR 2021 中国预讲会。回放链接:hub.baai.ac.cn/activity/details/131

本文介绍清华大学助理教授吴翼在预讲会中的主持报告。

2015年,DeepMind在《Nature》上发表的DQN打Atari的论文,被视为强化学习研究爆发的导火索。时至今日,强化学习取得的成绩不断地刷新着人类的认知。例如AlphaGo的围棋一枝独秀,AlphaFold的蛋白质预测无人能敌,OpenAI Five玩DOTA的战略布局老谋深算。另一方面,这也看出游戏环境在强化学习的发展中起着举足轻重的作用。那么,从游戏角度看,强化学习还有哪些前沿问题值得攻关?

2月19日,在青源Seminar-ICLR 2021预讲会中,来自清华大学的吴翼在强化学习论坛中,做了“从捉迷藏游戏谈起”的报告。所谓「捉迷藏」,本质上来说便是A、B双方利用各种道具,一个藏,一个找的博弈过程。

在吴翼过往的研究中,他设置一个包含红人、蓝人以及墙和箱子的捉迷藏游戏环境,通过强化学习训练,吴翼发现很多好玩的过程。而同时,吴翼表示,捉迷藏游戏也启示了许多开放性的问题,例如:

  • 为什么看上去这么简单的策略,却需要OpenAI如此强大的计算能力加持?

  • 如何才能学习非常复杂的可解析行为?

  • 复杂的多智能体行为能给我们带来什么?

  • 在训练过程中,为什么某些策略没有出现

  • 如何才能让多个智能体进行更好的分工与合作?

  • ......

这些开放问题广泛存在于强化学习的研究当中,具有重要的启发意义。

下面是吴翼的报告整理,以供产考。

图注:吴翼,师从人工智能泰斗、加州伯克利大学 Stuart Russell 教授,其论文 Value Iteration Network 荣获 NIPS 2016 年度最佳论文奖;多次在 ACM-ICPC 竞赛中取得好成绩,两次参加全球总决赛获得一枚银牌一枚铜牌。

整理:蒋宝尚

审校:吴   翼

01

捉迷藏游戏中的六个策略

在这里,我先介绍一个捉迷藏游戏的工作。是我在OpenAI 工作期间做的项目“Hide-and-Seek Game”,相关论文已经发表在ICLR 2020 。

具体而言,我们在这个项目中创造了一个模拟环境,环境中有许多物体,例如箱子、梯子以及小蓝人和小红人。小蓝人代表捉迷藏游戏中的“藏匿者”,小红人代表游戏中的“寻找者”。

在虚拟环境下调动上述“物体”,使用强化学习,在成千上万的平行宇宙中,让小蓝人和小红人不停的玩捉迷藏游戏。

在项目的具体设置中存在两组Agent&

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值