清华吴翼：从捉迷藏游戏说起，谈谈强化学习的六个开放问题

智源社区

于 2021-02-26 18:10:00 发布

阅读量815

点赞数 3

文章标签：游戏编程语言人工智能深度学习机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/114275289

版权

清华大学吴翼在ICLR 2021预讲会上探讨了强化学习在捉迷藏游戏中的应用，揭示了多智能体强化学习中出现的六种策略和反策略。游戏启发了一系列开放问题，包括样本复杂性、学习复杂行为、策略迁移、环境影响策略生成、智能体合作以及探索多样化策略的可能性。通过奖励随机化技术，RPG算法在复杂游戏中发现了多种意料之外的策略行为。

摘要由CSDN通过智能技术生成

第九届国际学习表征大会（ICLR 2021）是深度学习领域的国际顶级会议。在正式会议召开之前，青源Seminar于2月19日-21日成功召开了ICLR 2021 中国预讲会。回放链接：hub.baai.ac.cn/activity/details/131

本文介绍清华大学助理教授吴翼在预讲会中的主持报告。

2015年，DeepMind在《Nature》上发表的DQN打Atari的论文，被视为强化学习研究爆发的导火索。时至今日，强化学习取得的成绩不断地刷新着人类的认知。例如AlphaGo的围棋一枝独秀，AlphaFold的蛋白质预测无人能敌，OpenAI Five玩DOTA的战略布局老谋深算。另一方面，这也看出游戏环境在强化学习的发展中起着举足轻重的作用。那么，从游戏角度看，强化学习还有哪些前沿问题值得攻关？

2月19日，在青源Seminar-ICLR 2021预讲会中，来自清华大学的吴翼在强化学习论坛中，做了“从捉迷藏游戏谈起”的报告。所谓「捉迷藏」，本质上来说便是A、B双方利用各种道具，一个藏，一个找的博弈过程。

在吴翼过往的研究中，他设置一个包含红人、蓝人以及墙和箱子的捉迷藏游戏环境，通过强化学习训练，吴翼发现很多好玩的过程。而同时，吴翼表示，捉迷藏游戏也启示了许多开放性的问题，例如：

为什么看上去这么简单的策略，却需要OpenAI如此强大的计算能力加持？
如何才能学习非常复杂的可解析行为？
复杂的多智能体行为能给我们带来什么？
在训练过程中，为什么某些策略没有出现
如何才能让多个智能体进行更好的分工与合作？
......

这些开放问题广泛存在于强化学习的研究当中，具有重要的启发意义。

下面是吴翼的报告整理，以供产考。

图注：吴翼，师从人工智能泰斗、加州伯克利大学 Stuart Russell 教授，其论文 Value Iteration Network 荣获 NIPS 2016 年度最佳论文奖；多次在 ACM-ICPC 竞赛中取得好成绩，两次参加全球总决赛获得一枚银牌一枚铜牌。

整理：蒋宝尚

审校：吴翼

捉迷藏游戏中的六个策略

在这里，我先介绍一个捉迷藏游戏的工作。是我在OpenAI 工作期间做的项目“Hide-and-Seek Game”，相关论文已经发表在ICLR 2020 。

具体而言，我们在这个项目中创造了一个模拟环境，环境中有许多物体，例如箱子、梯子以及小蓝人和小红人。小蓝人代表捉迷藏游戏中的“藏匿者”，小红人代表游戏中的“寻找者”。

在虚拟环境下调动上述“物体”，使用强化学习，在成千上万的平行宇宙中，让小蓝人和小红人不停的玩捉迷藏游戏。

在项目的具体设置中存在两组Agent&

最低0.47元/天解锁文章

智源社区

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
清华吴翼：从捉迷藏游戏说起，谈谈强化学习的六个开放问题

第九届国际学习表征大会（ICLR 2021）是深度学习领域的国际顶级会议。在正式会议召开之前，青源Seminar于2月19日-21日成功召开了ICLR 2021 中国预讲会。回放链接：hu...
复制链接

扫一扫