AlphaStar 实战技巧分析

作者:新智元
链接:https://www.zhihu.com/question/310011363/answer/581431562
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

AlphaStar 实战技巧分析

讲完 AlphaStar 的训练过程,再来分析下实战过程。

像 TLO 和 MaNa 这样的职业星际争霸玩家,平均每分钟可以做数百个操作 (APM)。这远远少于大多数现有的机器人,它们独立控制每个单元,并始终保持数千甚至数万个 APM。

在与 TLO 和 MaNa 的比赛中,AlphaStar 的平均 APM 约为 280,远低于职业选手,不过它的动作可能更精确。

造成 APM 较低的部分原因是 AlphaStar 使用回放开始训练,因此模仿了人类玩游戏的方式。此外,AlphaStar 的反应在观察和行动之间的平均延迟 350ms。

 

在与 TLO 和 MaNa 对弈过程中,AlphaStar 通过原始界面与星际争霸 2 引擎连接,这就意味着它可以直接在地图上观察自己的属性和对手的可见单位,而无需移动相机。

相比之下,人类玩家必须明确管理 “注意力经济 (economy of attention)”,并决定在哪里对焦相机。

然而,对 AlphaStar 游戏的分析表明,它管理着一种隐性的注意力焦点。平均而言,智能体每分钟 “切换内容” 约 30 次,类似于 MaNa 或 TLO 的操作。

此外,在比赛之后,DeepMind 还开发了 AlphaStar 的第二个版本。和人类玩家一样,这个版本的 AlphaStar 会选择何时何地移动摄像头,它的感知仅限于屏幕上的信息,行动地点也仅限于它的可视区域。

DeepMind 训练了两个新智能体,一个使用 raw interface,另一名必须学会控制摄像头,以对抗 AlphaStar League。

每个智能体最初都是通过从人类数据中进行监督学习,然后按照强化学习过程进行训练的。使用摄像头界面的 AlphaStar 版本几乎和 raw interface 一样强大,在 DeepMind 内部排行榜上超过了 7000 MMR。

在表演赛中,MaNa 用 camera interface 击败了 AlphaStar 的一个原型版本,这个 interface 只训练了 7 天。

这些结果表明,AlphaStar 对 MaNa 和 TLO 的成功实际上是由于优越的宏观和微观战略决策,而不是快速的操作、更快的反应时间或 raw interface。

人类挑战 20 年,AI 攻下星际争霸有五大困难

游戏规则规定,玩家必须选择三种不同的外星 “种族” 中的一种——虫族、神族或人族,它们都有各自的特点和能力(尽管职业玩家往往只专注于一种种族)。每个玩家从一些工作单元开始,收集基本资源来构建更多的单元和结构并创造新技术,这些反过来又允许玩家获取其他资源,建立更复杂的基地和结构,并开发新的能力,可以用来智胜对手。

游戏的难度在于,要想取胜,玩家必须在宏观经济的宏观管理和微观个体的控制之间保持谨慎的平衡。

平衡短期和长期目标以及适应意外情况的需要对往往脆弱和缺乏灵活性的系统提出了巨大的挑战。要想解决这个问题,需要突破 AI 研究的几个挑战,包括:

游戏理论:《星际争霸》是一款像剪刀石头布一样是没有最佳策略的游戏。因此,AI 过程需要不断探索和拓展战略知识的前沿。

不完全信息:不像国际象棋或围棋那样,玩家什么信息都能看到,关键信息对星际玩家是隐藏的,必须通过 “侦察” 来主动发现。

长期规划:像许多现实世界中的问题一样,因果关系不是瞬间产生的。游戏也可以在任何地方花费一个小时完成,这意味着在游戏早期采取的行动可能在很长一段时间内都不会有回报。

实时:不像传统的棋类游戏,玩家在接下来的动作之间交替,《星际争霸》玩家必须随着游戏时间的推移不断地执行动作。

大型活动空间:数百个不同的单元和建筑必须同时被实时控制,从而形成一个可能性组合空间。

正是由于这些巨大的挑战,星际争霸已经成为人工智能研究的 “大挑战”。自 2009 年发布 BroodWar API 以来,《星际争霸》和《星际争霸 2》的竞赛一直在进行,包括 AIIDE 星际争霸 AI 竞赛、CIG 星际争霸竞赛、学生星际争霸 AI 竞赛和《星际争霸 2》AI 阶梯赛。

DeepMind 在 2016 年和 2017 年与暴雪合作发布了一套名为 PySC2 的开源工具,其中包括有史以来最大的一组匿名游戏回放。

现在,经过两年的打造,继 AlphaGo 之后,DeepMind 刚刚问世的 AlphaStar 已经取得了飞速进展。

最后,AlphaStar论文即将发布,更多技术细节请阅读:

新智元:AlphaStar 称霸星际争2!AI 史诗级胜利,DeepMind 再度碾压人类

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
StarCraft星际争霸的alphastar复现代码。兵种组合:正如上面所说,AlphaStar兵种组合非常单一,主要依靠“追猎者”。“追猎者”对空对地,速度很快,升级后还有“闪烁”技能,操作空间很大,非常适合游击战。AlphaStar充分发挥了“追猎者”的机动性,会把没血的“追猎者”及时往后拉;并且偏向于进攻战术,从而给了“追猎者”移动的空间。但“追猎者”的弱点是攻击力不高,因此大规模交战时难以作为主战部队。在与Mana的第四局比赛录像中,AlphaStar通过三面包夹缓解了这一点,但在最后一局直播比赛中还是无法被大量的“不朽者”击败了。其次,AlphaStar也经常使用“凤凰”,这是速度极快的空中单位,只能对空,但可以使用魔法把地面单位抬到空中。AlphaStar对凤凰的微操超越了所有职业选手,并且在会战中优先抬“哨兵”也让人眼前一亮。此外,在对战TLO的第三局中,AlphaStar大量使用了“自爆球”,但失误也很多,并且目前的版本“自爆球”已经被削弱了。 战术选择:AlphaStar偏向于前期进攻,经常使用两个“追猎者”或者两个“使徒”进行前压,之后要么持续施压打穿对手,要么尽快开二矿建造大量“凤凰”进攻。此外还进行了三次野兵营快攻,全部得手。两次野BG打4BG战术,一次野VR和电池。所以从人类的角度看,AlphaStar是一个依靠快攻和微操来取胜的前期型选手。 骚扰应对:在10局比赛录像中,AlphaStar对骚扰应对的都还不错,好几次虽然没堵口让对方的“使徒”进来杀了好些农民,但由于AlphaStar农民本来就造的比较多,所以对经济也影响不大。但直播的比赛中,AlphaStar面对Mana空投不朽的骚扰显得无能为力,被长时间牵制住非常被动,导致最终输掉了比赛。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值