AlphaStar 实战技巧分析

最新推荐文章于 2024-07-04 00:09:48 发布

BBlue-Sky

最新推荐文章于 2024-07-04 00:09:48 发布

阅读量992

点赞数

分类专栏：强化学习人工智能文章标签： AlphaStar

原文链接：https://www.zhihu.com/question/310011363/answer/581431562

版权

人工智能同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

强化学习

7 篇文章 0 订阅

订阅专栏

作者：新智元
链接：https://www.zhihu.com/question/310011363/answer/581431562
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

AlphaStar 实战技巧分析

讲完 AlphaStar 的训练过程，再来分析下实战过程。

像 TLO 和 MaNa 这样的职业星际争霸玩家，平均每分钟可以做数百个操作 (APM)。这远远少于大多数现有的机器人，它们独立控制每个单元，并始终保持数千甚至数万个 APM。

在与 TLO 和 MaNa 的比赛中，AlphaStar 的平均 APM 约为 280，远低于职业选手，不过它的动作可能更精确。

造成 APM 较低的部分原因是 AlphaStar 使用回放开始训练，因此模仿了人类玩游戏的方式。此外，AlphaStar 的反应在观察和行动之间的平均延迟 350ms。

在与 TLO 和 MaNa 对弈过程中，AlphaStar 通过原始界面与星际争霸 2 引擎连接，这就意味着它可以直接在地图上观察自己的属性和对手的可见单位，而无需移动相机。

相比之下，人类玩家必须明确管理 “注意力经济 (economy of attention)”，并决定在哪里对焦相机。

然而，对 AlphaStar 游戏的分析表明，它管理着一种隐性的注意力焦点。平均而言，智能体每分钟 “切换内容” 约 30 次，类似于 MaNa 或 TLO 的操作。

此外，在比赛之后，DeepMind 还开发了 AlphaStar 的第二个版本。和人类玩家一样，这个版本的 AlphaStar 会选择何时何地移动摄像头，它的感知仅限于屏幕上的信息，行动地点也仅限于它的可视区域。

DeepMind 训练了两个新智能体，一个使用 raw interface，另一名必须学会控制摄像头，以对抗 AlphaStar League。

每个智能体最初都是通过从人类数据中进行监督学习，然后按照强化学习过程进行训练的。使用摄像头界面的 AlphaStar 版本几乎和 raw interface 一样强大，在 DeepMind 内部排行榜上超过了 7000 MMR。

在表演赛中，MaNa 用 camera interface 击败了 AlphaStar 的一个原型版本，这个 interface 只训练了 7 天。

这些结果表明，AlphaStar 对 MaNa 和 TLO 的成功实际上是由于优越的宏观和微观战略决策，而不是快速的操作、更快的反应时间或 raw interface。

人类挑战 20 年，AI 攻下星际争霸有五大困难

游戏规则规定，玩家必须选择三种不同的外星 “种族” 中的一种——虫族、神族或人族，它们都有各自的特点和能力（尽管职业玩家往往只专注于一种种族）。每个玩家从一些工作单元开始，收集基本资源来构建更多的单元和结构并创造新技术，这些反过来又允许玩家获取其他资源，建立更复杂的基地和结构，并开发新的能力，可以用来智胜对手。

游戏的难度在于，要想取胜，玩家必须在宏观经济的宏观管理和微观个体的控制之间保持谨慎的平衡。

平衡短期和长期目标以及适应意外情况的需要对往往脆弱和缺乏灵活性的系统提出了巨大的挑战。要想解决这个问题，需要突破 AI 研究的几个挑战，包括:

游戏理论：《星际争霸》是一款像剪刀石头布一样是没有最佳策略的游戏。因此，AI 过程需要不断探索和拓展战略知识的前沿。

不完全信息：不像国际象棋或围棋那样，玩家什么信息都能看到，关键信息对星际玩家是隐藏的，必须通过 “侦察” 来主动发现。

长期规划：像许多现实世界中的问题一样，因果关系不是瞬间产生的。游戏也可以在任何地方花费一个小时完成，这意味着在游戏早期采取的行动可能在很长一段时间内都不会有回报。

实时：不像传统的棋类游戏，玩家在接下来的动作之间交替，《星际争霸》玩家必须随着游戏时间的推移不断地执行动作。

大型活动空间：数百个不同的单元和建筑必须同时被实时控制，从而形成一个可能性组合空间。

正是由于这些巨大的挑战，星际争霸已经成为人工智能研究的 “大挑战”。自 2009 年发布 BroodWar API 以来，《星际争霸》和《星际争霸 2》的竞赛一直在进行，包括 AIIDE 星际争霸 AI 竞赛、CIG 星际争霸竞赛、学生星际争霸 AI 竞赛和《星际争霸 2》AI 阶梯赛。

DeepMind 在 2016 年和 2017 年与暴雪合作发布了一套名为 PySC2 的开源工具，其中包括有史以来最大的一组匿名游戏回放。

现在，经过两年的打造，继 AlphaGo 之后，DeepMind 刚刚问世的 AlphaStar 已经取得了飞速进展。

最后，AlphaStar论文即将发布，更多技术细节请阅读：

新智元：AlphaStar 称霸星际争2！AI 史诗级胜利，DeepMind 再度碾压人类

BBlue-Sky

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AlphaStar 实战技巧分析

作者：新智元链接：https://www.zhihu.com/question/310011363/answer/581431562来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。 AlphaStar 实战技巧分析讲完 AlphaStar 的训练过程，再来分...
复制链接

扫一扫

专栏目录