美国西岸时间 4 月 13 日早上 11 点半,OpenAI 的 DOTA 2 AI「OpenAI Five」为我们带来最后一场公开表演赛。比赛结果自然不难猜测,不过除结果外也有更多有趣的东西。「OpenAI Five」首先对阵 2018 年 DOTA2 世界邀请赛(Ti 8)冠军 OG 战队,三局两胜以 2:0 完胜 OG 战队。接下来,OpenAI 安排了人机合作比赛,双方都是两名人类选手和 3 个 AI──这比赛非常耐人寻味,我们猜测人类选手和 AI(如果有思维)都会在心里想:我这几个队友是怎么回事、怎么老是和我节奏不一样、这比赛让人怎么玩?最后,OpenAI 宣布,DOTA2 AI 将对全世界 DOTA2 玩家免费开放,下周起就可体验。
表演赛 Part 1:「OpenAI Five」vs. OG 战队
去年 7、8 月的表演赛,「OpenAI Five」就曾在 5v5 比赛击败人类高阶玩家乃至(前)职业选手。虽然 AI 没能赢所有场次比赛,但 AI 的各种亮眼操作(以及 AI 让人摸不着头脑的随地插眼法)仍给大家留下深刻的印象。比赛告一段落后,OpenAI CTO Greg Brockman 继续在 Twitter 更新「OpenAI Five」的最近进展,甚至表示最新版已能以高胜率击败公开展示过的几个版本了。这样一来,继续优化到今天,尤其是 Greg Brockman 表示,「OpenAI Five」游戏中的训练时间相当于 4 万 5 千年那么长,今天比赛完胜人类职业战队的世界冠军 OG 战队,也不令人意外了。需要说明的是,目前最新的「OpenAI Five」仍然使用和 Ti8 表演赛一样的规则:一共 18 个英雄供双方选择,不允许使用圣剑和魔瓶、不允许使用召唤物和幻象。我们似乎更有理由相信 AI 在这样的设定下获胜是合理的:在这个复杂度降低的设定中,AI 经过够长时间训练,已可逼近某个最优解了──相比之下,人类职业选手肯定不习惯这设定,仅英雄选择方面就大大限制了人类选手的发挥。另外,去年表演赛结束后结合 OpenAI 公开的数据分析过「OpenAI Five」的设计方式,结合今天「OpenAI Five」的表现来看,很有可能维持同样模式,最大的改进在于更多训练时间。
第一局中,OG 阵容选出的阵容是小牛、巫医、隐刺、毒龙、影魔,「OpenAI Five」为冰女,死亡先知、×××、矮人直升机、流浪剑客。一选时「OpenAI Five」预估的自己的胜率为 65.1%,全部选择完毕后还继续上升到 67.6%。比赛一开始 AI 方就在天辉上路赏金符处拿到一血,然后在公屏幕打字「我们预期赢得这场比赛的胜率超过 80%」(就和去年表演赛一样)。AI 方的在线进攻依旧主动凶狠,即便 OG 有小牛在各路积极游走和保护,且 AI 方也没有针对隐刺买眼买粉而让他占了不少便宜,双方在前十几分钟仍打得势均力敌。随着比赛进行,AI 方的经济和击杀数逐渐建立起优势,最终 38 分钟时夜魇方基地被攻破,AI 方与 OG 的人头比为 52:29。
第二局比赛 OG 阵容为×××、小牛、死亡先知、小鱼人、恶魔巫师,「OpenAI Five」阵容为冰女、矮人直升机、流浪剑客、巫医、毒龙。这次「OpenAI Five」选人完毕时的预测胜率只有 60%,但 OG 在对线期就打出很大劣势,最终这局比赛 14 分钟上高地,20 分钟就以 45:6 人头比结束了。这点想起来很有趣:「OpenAI Five」认为这次开局时自己的优势不如上一局大,但是针对自己操作这样阵容的情况做的判断,显然没有预料到人类的表现和自己大不同。AI 也继续展现亮眼的团战操作。比如下面动图,第一局比赛 OG 小牛和隐刺绕后冰女,结果在 AI 的×××配合下隐刺和巫医双双被反杀,OG 的影魔也葬身之后最终才带走了冰女。第二局,AI 的冰女利用暗影护符和地形卡视野黑血秀 OG 的矮人狙击手,并成功反杀。
AI 当然也继续表现出秒沉默之类的快速反应,但其实除了这些,更令人意外的是「OpenAI Five」的比×××格。比如所有英雄都会正常发展自己的经济,冰女甚至几分钟时就会自己打野,可说这和中国 DOTA 战队常见的「四保一」打法形成鲜明对比,在前中期团战时发挥了不小威力;等级低时 AI 的英雄经常死亡后立即买活,简直像人类玩家在赌气。两局比赛结束后,OpenAI 还透露,准备表演赛的过程中 OpenAI 还邀请了 3 支一线 DOTA2 战队尝试挑战 AI,全都以 2:0 败给「OpenAI Five」。OG 战队今天的表现,对 OpenAI 来说可说是完全在预料之中了。内容来源:http://www.cafes.org.tw/info.asp
表演赛 Part 2:人类和「OpenAI Five」并肩作战
不知道大家是否记得,2017 年 5 月 AlphaGo Master 在中国乌镇对局柯洁时,同一峰会也安排了人类棋手和 AlphaGo 的配对赛,古力和连笑两位棋手分别和 AlphaGo 组成小组,双方对局人类和 AlphaGo 轮流落子。两位棋手赛后都表示 AlphaGo 和自己的思路、风格不一样,经常下出让自己意外的棋──类似的事自然也在此次「OpenAI Five」表演赛出现。人机合作比赛双方都是两名人类选手和 3 个 AI,4 位人类选手都是游戏解说,所以当作表演赛,他们就像直播,一边比赛一边对所有观众说出自己的想法。解说们这种边玩边吐槽、也边玩边期待 AI 和自己配合的过程中,大家对 AI 都有很多全新的感受:
- 最根本的,其实 AI 并不知道队友有一些不是 AI,它仍然会视队友都和自己一样的 AI 去处理,也许 AI 也会觉得不适应?但反过来,即便人类控制的英雄已出现很多低级错误,我们相信 AI 仍可像相信 AI 队友那样相信他。
- 对出击策略的把握有很大区别,人类选手在河道吃了隐身符准备对对方中路英雄发动***时, 自己中路的 AI 却径自去了边路;人类选手表示很郁闷。
- 人类无法捉摸 AI 的步调,不知道 AI 是否认为己方是优势、是否应该主动***。那么理想情况下人类应该如何和 AI 沟通?肯定不会总是听人类的,也不会总让 AI 带领节奏。实际上 AI 有时候会直接打字告诉人类自己的决定(比如自己要打 1 号位),但对人类发的讯息就不怎么反应(简直像是人机互动的负面案例)。
- 和以前一样,AI 的插眼方式很奇怪──这可能是相比去年的版本,唯一没有显著提升的地方,完全可猜到这是因为训练插眼时用的回馈仍是「要留空格子」。Blitz 甚至直接问「上路到底发生什么了,为什么地上插了 4 个眼???」另一方的人类选手 Sheever 说:「我们的 AI 总把眼插在奇怪的地方,但我想插都买不了,一直在冷却。」(后来 AI 在这里又插了一个眼,一共 5 个)。
- AI 对某些英雄的理解和人类完全不同。比如 AI 认为死亡先知在 10~20 分钟的时间段内是非常强的英雄,它会非常积极地使用技能、参与团战。但人类就会认为这时候的死亡先知并不厉害。
- 有观战者根据 AI 的表现猜测影响 AI 战场决策最重要的因素是站位和技能冷却;同时 AI 也确实会考虑队友的位置。也所以,人机合作比赛的节奏要明显慢于 5 人都是 AI 的状况──两个人类队友的位置和其他 3 个 AI 的节奏不一致,集体进攻也就没那么积极果断了。
- AI 在树丛里找人的技术好像不怎么样,当然这件事学起来也比较难。另外人类也很难在和 AI 对局时练习,人类在逃命时会有一些「下意识」的操作,但很难说 AI 的处理方式是出于什么原因。
- 人类选手 Blitz 比赛中说:「不管我走哪路,去了以后都感觉自己好像走错路了。从这个角度来说,和 AI 一起玩挺难受的。但是如果我去哪的时候 AI 也一起来了,那我就感觉挺好的。彷佛一边打游戏一边解谜。」
表演赛 Part 3:人人都可以挑战「OpenAI Five」
赛前的开场演讲,Greg Brockman 说要透过「OpenAI Five」展示 AI 有高能力水平、高可拓展性,以及可增强人类的能力。前面 Part 1 的人机对战和 Part 2 的合作对战中,算是展现出高能力及一部分「增强人类的能力」,那么在 Part 3,我们终于看到「高可拓展性」意味着什么:每个人都可以和 OpenAI 的 DOTA2 AI 对战,可以是对手,也可以是队友,下周开始,在 arena.openai.com 注册即可体验!表演赛结束后的讨论,有人提到阻碍「OpenAI Five」这种高水平竞技 AI 大规模普及的最大障碍之一,显然是它需要的训练时间太长,Greg Brockman 也在 Twitter 响应,解决这个问题会是他们的下一个目标。显然根据这次表演赛,除了深度学习技术方面继续钻研,人类和 AI 如何有效沟通、并肩合作,已是浮出水面的问题。我们期待 OpenAI 未来也在这方面带来一些惊喜。
转载于:https://blog.51cto.com/13220658/2380239