【重磅】AI击败顶级德扑玩家的秘密!德扑AI创造者现身reddit,全面解答34个提问,详解Libratus的现状和未来

543 篇文章 13 订阅



翻译:刘畅、reason_W

编校:reason_W

编辑:鸽子 

 


今年上半年,继AlphaGo多次升级连克人类高手之后,德州扑克终于也迎来了它的“破壁人”——人工智能Libratus。1月30日,来自CMU的人工智能Libratus战胜了顶级德州扑克玩家。然而比赛时,Libratus的创造者却是对其运作方式遮遮掩掩,这大半年关于Libratus的技术细节也少有曝光。直到这个月——先是在NIPS上取得最佳论文奖,接着15号《Science》杂志就发表其预印版论文,全角度解读Libratus技术细节。而Libratus创造者 Tuomas Sandholm 和Noam Brown  更是主动现身reddit,于美国东岸时间18日上午9点(北京时间18日晚10点)就网友关于Libratus的疑问展开了一场超级问答AMA(Ask Me Anything)。下面直接上干货!



Tuomas Sandholm



Noam Brown 


两个人都帅帅滴呢


Reddit原链


温馨提示:以下问答约9400字,主要分4部分内容,分别是Libratus现有技术及变体、Libratus同其他算法的对比、Libratus日后发展、Libratus团队自身情况。




Libratus现有技术及变体


1.   提问:据我所知,Claudico在2013年在人类团队失败的非常彻底... Libratus和 Claudico相比,AI程序有哪些改进/调整? Claudico的失败是如何影响到Libratus的新策略的,这些改进体现在哪里?(小编注:Claudico是Libratus的前一代)


Tuomas Sandholm:Claudico是在2015年的4月和5月之间与人类对手进行的比赛,而不是在2013年。Claudico以9BB/100的速度输给了人类,而Libratus则以15 BB / 100的速度击败了人类。


Libratus在三个主要模块中都有新的算法:

1.在匹配前,采用新的更好的均衡寻找算法来计算蓝图策略。

2.一种新的安全且嵌套的子博弈求解技术。Claudico的最终解决方案既不安全也不是嵌套的。

3.一个自我改进模块,在对手已经发现AI策略中潜在漏洞的状态空间上,计算了一个更加近似的纳什均衡,


更多细节可以参考http://science.sciencemag.org/content/early/2017/12/15/science.aao1733

2.   提问:Libratus的打牌风格有什么让专业人士非常感兴趣的或者是令人惊讶的吗?我听Polk提到了它在打牌中打出过一些很少见的下注数目,例如频繁但是平衡性很好的overbets策略。


NoamBrown:当然有啦,这是其中一些有趣的东西:

1) AI使用了许多不同的下注数目,并能够在这些赌注之间达到一个有效的平衡。而人类通常只使用一个或两个下注数目。

2) AI使用了混合策略(因不同的概率而采取不同的行动)。人类倾向于使用纯策略。所以人类发现很难在关键处估计AI下注的“范围”,因为AI的下注数目可能会打出任意大小。

3) AI使用了很多不寻常的下注数目。尤其是,它下注很大的时候,简直能让人类选手举步维艰。我听到一些扑克职业玩家的说法,自从Libratus与人类选手的挑战进行之后,这种情况在顶尖玩家中已经变得越来越普遍了,很大程度上就是因为 Libratus使用这些较大的下注数目带来的成功。


3.   提问:你是真正击败了他们还是在统计意义上的误差范围内被认定为胜出?


Tuomas Sandholm:Libratus非常明显地击败了人类,而不是统计意义上误差范围内判定的结果。具体而言,Libratus以99.98%的统计显著性击败了人类(即,p = 0.0002,4倍sigma统计显著性)。

具体详见: http://science.sciencemag.org/content/early/2017/12/15/science.aao1733

4.   提问:如果我们将Libratus在非超级计算机(或者只是一个较弱的单元)上运行,通过将类似的操作组合在一起并简化决策树,您认为和Libratus在超级计算机上运行的结果相比,我们会看到多大的差异?会不会出现差异太大或是次优的结果?


NoamBrown:在比赛之前,我们并不知道要打败顶尖玩家会是多么困难。我们也没有试图预测我们需要拥有哪些资源,而是尽可能多地利用了所有资源。因此才选择了超级计算机。我的猜测是,如果换做个人电脑,你仍然可以在上面实现非常好的表现。15 BB / 100的胜率表明超级计算机绝对是绰绰有余的。你之前说不得不放弃一些准确性和减少投注数量确实是没错的,但我不认为这会是一个多么巨大的成本。

我认为随着这些技术的提高,计算成本也会下降。我们已经看到人工智能在不完美信息博弈方面的巨大进步,没有理由认为这些进步在未来几年会放缓。我想在5年之内,我们会看到一个在智能手机上运行的,同时像Libratus那样强大的AI


5.   提问:文章中一直在说的“安全”到底是什么意思


NoamBrown:理论上保证AI不被打败的几率。

6.   提问:要是改变扑克的玩法,AI还会胜利吗?


NoamBrown:这是一个非常好的问题!基于我与这个领域的其他AI开发者的研究和讨论,我相信现在所有流行的扑克变种都存在很难被人类玩家战胜的超级人工智能。奥马哈扑克也不会是AI的对手,甚至9人玩家的奥马哈都不行。(小编注:奥马哈扑克游戏(Omaha Poker)是一种与德克萨斯扑克相似的扑克游戏。)


在设计AI难以战胜的游戏方面,可能一种非常有效的方式就是引入某种半合作元素。例如Settlers of Catan的交易过程或Diplomacy中的谈判过程。也许还有某种可以让你和其他玩家交换底牌的元素?当然,如果这场比赛仍然是扑克的话,就不一定了。目前还没有真正成功的处理半合作博弈的原则性方法。但我认为这将是一个非常有趣的研究方向,而且我认为至少需要几年的时间才能在这类游戏中看到人工智能的非常好的表现。

7.   提问:要是测试一下这个程序在面对一堆追求风险最低而不是追求最大收益的玩家前的表现呢?


NoamBrown:我们的AI模型是估计一个纳什均衡,而不是看对手如何出牌,所以低风险的玩家并不会以你想的那样以任何方式“搞糊涂”人工智能。我也不认为看到AI 的胜率从50BB/100变成100BB/100会有什么意思。


8.   提问:Libratus没有使用深度学习技术。这是故意的吗?还是说只是最终没有使用深度学习?还是说是试过了,但深度学习没有效果?考虑到DeepStack的成功,回过头来,你们会考虑使用深度学习吗?


NoamBrown:Libratus没有使用任何深度学习相关的技术。我们希望这可以帮助人们认识到对于AI来说除了深度学习还有更多的东西!而且深度学习本身不足以玩好扑克这样的游戏。


也就是说,我们介绍的技术与深度学习并不矛盾。我会把它们描述成MCTS的替代品。对于像扑克这样的游戏来说,深度学习并不是特别必要的。 但是我认为对于其他一些游戏来说,某种类型的函数逼近是相当有用的。


DeepStack使用了深度学习技术,但是还并不能确定它到底是多么有效。举例来说,它并没有击败之前最顶尖的扑克AI。还有,我认为DeepStack做得相当好的原因是因为它使用了由两个团队独立并且同时开发的嵌套子博弈求解方案。但这并不需要深度学习。Libratus使用的其实可以说是一个更高级版本的嵌套子博弈求解方案,加上了一些其他的好东西,然后最终才带来了强大的性能。

9.   提问:为什么最终没有在你的模型中实现强化学习?这似乎是自然而然的事情


NoamBrown:我们在Libratus中使用了虚拟遗憾最小化算法(CFR)的变体。特别是,我们使用了蒙特卡洛CFR方法来计算蓝图策略,而CFR +则是用在了实时子博弈求解中。CFR是一种类似于强化学习的自我对局算法,但是CFR另外考虑了在自我对局期间未被选择的假设动作的收益。CFR的存在其实就是一个纯净的强化学习变体,但是在实践中找到一个好的策略还需要更长的时间。


10. 提问:有没有想过要尝试6人桌德州扑克(6-max games)?


NoamBrown:简短一点儿来说呢,所有目前的这些技术在6人扑克上表现得都很好。但我认为3人以上的游戏会是一个更有趣的科学挑战,但扑克却是一个错误的领域。还有其他更适合的游戏。


详细回答的话,两名玩家以上的游戏对现有技术提出了许多有趣的理论和实践挑战。对新游戏来说,近似纳什均衡会非常没有计算效率。即使你找到了,也不一定确定你想不想做那样的决策。在双人零和博弈中,纳什均衡却能保证不管你的对手做何选择,在所得期望中你都不会失败。但在3+玩家游戏中,这已经不再是铁律。你可以按照纳什均衡的结果打牌,但可能最后还是输。所以我们需要新的技术来处理3+玩家的游戏,并且需要决定如何评估模型在这些游戏中的性能。


也就是说,之所以我们现在所有的技术都可以在3+玩家扑克中表现的出色,主要是因为其中两个原因:


1)在3+以上的玩家游戏中,很多人都会早早就弃牌,所以实际上大多数时候玩家都很快变成了2人。

2)在3+以上的玩家游戏中,基本上没有合作的机会。你不能配合一个玩家来搞掉另一个玩家。 要是想这样做就会被判定为合谋,并将违反游戏规则。


出于这些原因,我之前调查的那些将开发扑克AI作为陪练工具的人告诉我,这些技术在6-max中表现的也都很出色,基本上每种在线玩的扑克变种都是如此。在6-max做一个有意义的竞争也是不可行的,因为我们很难提防人类玩家之间的勾结(包括潜意识的勾结)。

11.提问:你说纳什均衡不能保证在3+玩家的游戏中避免失败。这是真的吗?纳什均衡的定义是不是不会损失多少?


NoamBrown:纳什均衡只保证你在双人零和游戏的期望中不会失败。


在3+以上的玩家游戏中,纳什均衡只能保证如果所有其他玩家都遵循相同的纳什均衡,那么你才能表现的最好。所以即使你们都在玩同一个纳什均衡,你仍然可能因为你的对手与你合作而失败。


同样,你也可能会陷入多重纳什均衡的“均衡选择问题”,你可能会选择其中一种策略,而其他玩家可能会选择另一中策略。所以你不能简单地计算出一个纳什均衡并且按照其给出的策略开始打牌,因为你不知道其他人是否会选择同一个均衡的策略。在双人零和博弈中,由于纳什均衡的任何线性组合都是另一个纳什均衡,所以不会出现这种情况。但在3+以上的玩家游戏中,一般来说,这是不正确的。

12. 提问:Libratus足以击败人类玩家,但是在我来看,它并不是战无不胜的,因为另一个机器人可能会在几年内出现并能够击败Libratus。 你认为Libratus距离成为一个完美的扑克玩家还有多远?比如,每个动作的每个概率分布对于给定的历史对手都是最佳的。或者说这样问,有没有这样的改进的可能?另外,当你引入更多的玩家到这个方程中来时,机器人必须考虑更多的动态。那解决一个三人的游戏会有多复杂?


NoamBrown:我不认为主流的无限制扑克变种将会被“解决”。游戏太大了。是否有改进的可能这个问题很难回答。对于现在人工智能在这些游戏中表现超人的观点,我倾向于否认,而且我认为我们最好是一个还关注着其他游戏的社区。


我在下面的链接里解释了为什么三人游戏是一个理论上的挑战,但在扑克中却不是一个实际的问题。https://www.reddit.com/r/MachineLearning/comments/7jn12v/ama_we_are_noam_brown_and_professor_tuomas/drf7it7/



Libratus同其他算法比较


13. 提问:可以推荐一些类似的,但是计算规模较小,效率稍微低些的扑克AI以供在线学习吗?


NoamBrown:http://slumbot.com 这个网站可能是公开的扑克AI里面表现最好的了,尽管它不进行实时计算。


14. 提问:同在超级计算机上运行PIOsolver模拟器的AI相比,你的软件有什么不同?(小编注:PIOsolver是一个可以快速计算出德州扑克中玩家依据纳什均衡可以打出的最佳策略的程序)


NoamBrown:有很大差异。 Libratus正在使用比PIOsolver更好的产品。关于为什么你不能只使用PIOsolver进行这种比赛有以下几个原因。(当然事先声明:我对PIOsolver的了解是相当有限的,但我会尽可能地回答我知道的部分。


1)PIOsolver需要一个人输入双方玩家的信念分布。而Libratus则是可以自己完全确定这些信息。


2)PIOsolver可能会被在均衡中出现概率为零的行为欺骗。例如,如果你下注10%,而PIOsolver却认为这种情况永远不会发生,那么它对你当前手的信念分布就是不确定的,它将给出无意义的答案。我记得PIOsolver有一个明确的免责声明,如果对手做了“奇怪”的打法,你不应该相信它。显然,如果你正在对付那些专门通过发现AI的弱点来战胜AI的顶级玩家,这就将是一个严重的问题。而Libratus则没有这个弱点。即使你选择了在均衡中出现概率为零的行为,它也会对这些行为有一个鲁棒和正确的应对。

15. 提问:考虑到最近国际象棋的火热,AlphaZero会打败Libratus吗?


Tuomas Sandholm:不,AlphaZero并没有针对不完美信息博弈游戏进行设计。


16. 提问:在通用性方面,AlphaZero与Libratus相比如何?


Tuomas Sandholm:AlphaZero主要是针对完美信息博弈(例如,围棋,象棋和将棋),而Libratus是用于不完美信息博弈。这是一个非常重要的区别。在不完美信息博弈中,玩家可以拥有私人信息,例如,谈判偏好,扑克牌,拍卖中的估价,玩家在网络安全中发现的零时差漏洞等等。大多数真实世界的交互就是不完美信息的博弈。

对于一个给定的游戏规模,不完美信息博弈更难以解决,因为其模型必须在子博弈之间平衡策略。例如,在扑克中,不应该总是看到好手就下注,看到坏手就弃牌。相比之下,在一个完美信息博弈中,一个子博弈只能从该子博弈中获得信息,而不需要与其他子博弈进行平衡。


现在,在我们的NIPS-17论文(在会议上获得最佳论文奖)和我们的Science论文(几个小时前刚刚发表)中,我们提出了在不完美信息博弈中理论上合理的子博弈求解技术。这些技术利用整个游戏的蓝图策略来获得不同子博弈的价值,即用来实现子博弈间的平衡。

17. 提问:你如何看待2017年5月在“Science”杂志上发布的DeepStack(https://arxiv.org/abs/1701.01724)? NIPS 2017是在2017年12月刚刚举办的,你们两种模型谁更厉害呢?你们两个研究组有合作吗?


网友LetterRip:我猜Libratus很有可能会碾压DeepStack——每个机器人所面对的玩家的质量都是截然不同的。DeepStack的绝大多数挑战都是水平非常差的专业扑克玩家(尽管其中一些人非常熟练),我不认为他们都是专业的单挑玩家。并且DeepStack的挑战设立了激励机制,以便奖励差异高的方法(因为只有第一名会得到奖励)。


TuomasSandholm:虽然DeepStack也有其有意思的方面,但我同意LetterRip的看法。


现在我将讨论两个AI之间的一些相似之处和不同之处。我建议你可以去阅读下我们的论文,其中介绍了Libratus,同时包括了Libratus与DeepStack的对比。 


DeepStack的算法类似于Libratus的嵌套子博弈求解(nested subgame solving),他们称之为不断的重新求解(continual re-solving)。和Libratus一样,对手的确切赌注大小被添加到要解决的剩余子博弈的新抽象中。我们于2016年10月在网上发布了我们的论文(之后于2017年2月在AAAI-17介绍了我们的工作),DeepStack团队于2017年1月在arXiv上发表了他们的论文(2017年春末在Science上发表了他们的论文)。考虑到开发这些技术需要的时间,我认为这两个团队在这之前已经有了几个月的时间来研究这些想法,所以可以说它们是独立发展并且并行的。而且,这些技术有显著的差异。 Libratus的子博弈求解方法在我们的Science论文中至少有以下几点优势:


1.   Libratus不再强调在对手犯了一个较早的错误时,对手持有的手牌(仍是一种可证明的安全方式),而DeepStack并没有这样做。(DeepStack does not share Libratus’s improvement of de-emphasizing (still in a provably safe way) hands the opponent would only be holding if she had made an earlier mistake.)


2.   Libratus有一个更改了每两手之间的子博弈动作抽象的功能。而DeepStack没有。(DeepStack does not share the feature of changing the subgame action abstraction between hands.)


3.   在Science的论文以及我们在NIPS-17的论文中,我们有很多种不依赖算法寻找到的平衡来保证安全,并且保证我们的子博弈近似求解的安全性。(We have various kinds of equilibrium-finding-algorithm-independent guarantees of safety and approximate safety of our subgame solving in the Science paper and in our NIPS-17 paper.) 


Libratus和DeepStack的另一个区别在于,这两个AI如何做出前两轮下注的策略。 DeepStack通过神经网络估算深度极限值,在前两轮下注中解决了深度受限的子博弈问题。这使得它可以总是计算出当对手出现off-tree时的实时响应,而Libratus通常根据其在前两轮中的预先计算的蓝图策略(只有在底池太大时,才使用其子博弈求解器)进行实时游戏。由于Libratus通常根据前两轮下注前的蓝图策略进行游戏,因此它会将对手off-tree时的下注大小转换为附近的抽象行动。为了减轻这一弱点,这些转换的蓝图行动抽象是密集的。此外,Libratus还有一个独特的自我完善模块,用于随着时间的推移增加蓝图策略,以及在博弈树中对手在AI的策略中所发现的潜在漏洞部分,计算更接近纳什均衡的近似值。 


在评估方面 - 除了LetterRip上面写到的关于对人类的评估之外,DeepStack从来没有被证明超越了之前公开提供的顶级AI们,而Libratus则是击败了之前最好的HUNL扑克人工智能Baby Tartanian8(赢得了2016年度计算机扑克大赛),并实现了大幅度提高(63MBb /游戏)


在合作方面,自13年以来,我们两个研究小组都已经相继发表了各自的技术,并且建立了自己的技术路线。并且,加拿大扑克组织负责人Michael Bowling在CMU获得了博士学位,而我当时就在他的博士学位委员会任职。但是,我们迄今还没有直接的合作。


18. 提问:我很好奇你的算法是不是适用于不完美信息的棋盘游戏,比如西洋陆军棋(已知的对手的位置,逐渐发现的身份,涉及大量诈唬,以及游戏中要进行数百个动作)。特别是,在强化学习的框架下,你的嵌套子博弈求解方案与虚拟自我对局算法相比如何(请参阅 https://arxiv.org/abs/1603.01121)?


NoamBrown:我认为我们的算法对所有不完美信息博弈都很重要。西洋陆军棋将是一个有趣的挑战,因为在这场比赛中隐藏信息的数量是巨大的(在无限德州扑克中,你必须考虑1,326个不同的可能状态,而在西洋陆军棋中它将超过10的10次方个不同的状态)。 我认为这是一个有趣的挑战,当然我认为我们的算法可以扩展并解决这样的游戏。


虚拟自我对局是CFR的替代,而不是嵌套的子博弈求解。在Libratus中,我们使用CFR来解决嵌套子博弈求解中的子博弈,当然你也可以使用虚拟自我对局来解决这些子博弈(尽管我认为CFR会更好)。你也可以使用EGT(Excessive-Gap技术),在某些情况下可能会比CFR更好,但实施起来更困难。

19. 提问:你有没有看过PokerSnowie? 有什么想法吗? piosolver它的HU解决方案与Libratus相比如何?


NoamBrown:见 https://www.reddit.com/r/MachineLearning/comments/7jn12v/ama_we_are_noam_brown_and_professor_tuomas/dr9c5wb/



Libratus的日后发展


20. 提问:你觉得在线扑克有可能在未来的6年内被机器人接管吗?


Tuomas Sandholm:是的,这个风险正变得非常突出。不过,尽管对于机器人检测我是有了新的想法。但目前还是不清楚机器人的威胁作用是如何进行的。

21. 提问:是否有计划长期在线使用Libratus?有没有一种好方法可以防止AI在线扑克,在这种情况下,你是否支持对扑克玩家的保护?


Tuomas Sandholm:我们没有计划让Libratus假装成一个人。我确实保护支持扑克玩家。也就是说,跟Libratus博弈是非常有趣的,我认为机器人应该被允许在网站上进行博弈,只要他们被明确标记为机器人

22. 提问:在算法博弈论中,你认为现在还有哪些有趣的方向?


Tuomas Sandholm:有很多有趣的问题,而且这个领域非常的活跃。我个人通常最喜欢具有以下特点的工作:1.研究真正的问题,而不是像玩具一样的抽象。通常这种工作使用了真实的数据。2可以解决那些哪怕研究的问题只有一点成功,也可以对现实世界有很大影响的问题。


以下是我真正喜欢的几个方向,并且已经开展了工作:

  • 在不完美信息博弈中的博弈论解决和对手开发工作。我正在我的CMU实验室和我的新创业公司Strategic Machine.Inc.中进行这项工作。
  • 自动机制设计(例如,使用数据为多个买家进行多项目拍卖的自定义拍卖设计)。
  • 肾脏交换(采用我在CMU实验室的AI运行了UNOS的全国肾脏交换;交换包括159个移植中心)。
  • 针对各种市场问题的组合优化,我正在CMU实验室和我创建的卖方广告活动优化公司Optimized Markets.Inc.中进行此项工作。该公司主要进行广告系列定价,广告方案生成,广告资源分配,广告投放时间设置,广告素材分配(复制轮播),反馈预测等。它可以在一个跨媒体的环境中做到这些:线性电视,非线性电视,显示器,流媒体,游戏等。我正在为我CMU的实验室和初创公司寻找更多伟大的科学家和软件工程师......

 

23. 提问:你认为在解决不完美信息博弈方面,下一个重大突破将是什么?


NoamBrown:我认为目前Starcraft和Dota2的工作非常有趣! 这些都是不完美信息博弈,这些技术将与这些游戏非常相关。

我也希望我们能看到可以处理涉及谈判和临时合作的半合作游戏方面的人工智能。这是我真正感兴趣的研究领域。

24. 提问:CFR存在一个纯粹的强化学习变体,但在实践中找到一个好的策略还需要更长的时间。你或者其他人能详细说明吗? 你是说这是CFR和CFR +的区别?


NoamBrown:CFR +对于CFR来说是一个小小的改变(基本上是设置了遗憾的最小值以及改变了平均权重),从而在实践中取得更好的表现。你可以看看蒙特卡洛CFR采样的结果。 这是(我认为)纯强化学习的CFR版本。但没有人在实践中使用它,因为它不能和其他变体一样工作。



团队自身发展


25. 提问:你认为在你的程序需要花费多少时间就可以摧毁在线扑克?你现在还在致力于什么样的工作?


NoamBrown:正如LetterRip所指出的那样,大多数在线扑克玩家并不是顶尖的职业选手,要使AI能够击败其中的绝大部分玩家并不是非常的困难。也就是说,扑克网站花费了大量的精力来检测和消除在线机器人。他们不需要在这方面100%的成功,他们只需要成功到不再产生利益就可以停了。所以即使他们只抓住了10%的机器人,这对机器人开发者来说也是有风险的,因为只要他们一旦被抓住资金就会被没收。


我们还没有决定一个单一的研究方向。但我认为谈判是一个非常有趣的方向,所以我倾向于这个方向。

26. 提问:之前Libratus挑战的四个人都是很优秀的玩家,但肯定还不是世界上最顶尖的四个。15bb / 100这样的胜率,换做顶级玩家来挑战那四个玩家也很有可能出现。所以其实到目前为止我们还不能确定Libratus是否会击败最顶级的人类玩家。你现在已经赢了那四个玩家,那之后你是会选择继续挑战更高级的玩家还是会选择停止挑战?


NoamBrown:比赛结束后,扑克界对比赛结果的看法给我留下了深刻的印象。在当初卡斯帕罗夫与深蓝对战之后,卡斯帕罗夫公开表示他仍然认为自己比深蓝好。同样,在李世石与AlphaGo的对战之后,其他很多顶级棋手说他们仍然认为他们比AlphaGo要更好。但是在我们的比赛结束后,参加比赛的所有的扑克玩家都非常直截了当的告诉我们,他们认为AI比他们更好。不仅如此,没有同Libratus对战过的其他顶级职业玩家也公开表示,这个AI机器人简直就是超人。


我不认为会有任何顶级玩家认为他们可以胜过Libratus很多手,如果有人这样认为的话,我们很乐意与他们进行高额的比赛,只要他们愿意承担输掉的风险。


27. 提问:你接下来打算做什么任务/游戏?


NoamBrown:有很多有趣的方向!我不认为我们会只在一个方向上继续下去。像谈判一样的“半合作博弈”是一个非常有趣的研究。在这里,玩家们愿意一起合作,但都试图最大化他们的个人利益。但现有的技术在这类游戏中都已经完全崩溃,所以还有很多有趣的研究在等着我们做。还有很多娱乐游戏也同样存在这样的动态博弈,例如Settlers of Catan(交易)和Diplomacy(谈判) 。


还有,我认为像Dota2和星际争霸这样的即时策略游戏也是非常有趣的领域。而作为一个不完美信息博弈过程,我们所做的所有关于扑克的工作都将有助于在这些游戏中制定一个难以失败,可以一直击败顶级玩家的策略。


同样,我认为虽然AlphaZero是专注于围棋,而Libratus是专注于扑克。但是这种游戏上的差异并不是不能改变。我们在围棋和国际象棋这样的游戏上的AI技术都很棒,而在扑克这样的游戏中又有另外一种思路的非常棒的技术。但是我们还应该有一个可以在这些游戏间通用并且非常棒的算法。现在这些方法之间的差异非常大,如何来改变或者融合这些差异的技术路线还不是很清楚。

28. 提问:以你们的观点看,在北美区域,机器学习研究最顶级的五所大学是什么?你是否认为将来可能出现一起使用机器学习和数据可视化的应用程序?他们俩似乎在数据科学谱上处于两个极端。


Tuomas Sandholm:这取决于机器学习的确切子域,但这是我的粗略排名:CMU,Berkeley,Stanford,MIT,UMass,UW。

数据可视化正在变得越来越难,维度也越来越高。并且,从长远来看,人们不可能通过增加人手来解决大多数机器学习相关的问题,其中一个原因就是,世界上只有这么多人;而且人们的速度也很慢。所以,平衡必然会转向机器学习而不是数据可视化。

 

29. 提问:你们或DeepMind团队会参加2018年的电脑扑克比赛吗?


Tuomas Sandholm:今年我们没有参赛,是因为现在我们在单挑无限德克萨斯扑克赛中取得了击败顶级人类选手的里程碑式的结果,自从二月份以来,我们一直在关注其他的事情。

根据一些讨论,我的理解是DeepMind团队也不会参与。

 

30. 提问:有用LoL或DOTA2的机器人来接管MOBA行业的任何计划吗?


NoamBrown:我认为这个研究路线对于让LoL,Dota2和Starcraft中的人工智能达到超人类水平是非常重要的。这些游戏中有很多“诈唬”,特别是这些游戏的顶级对战。

31. 提问:你认为这对工业最有用的应用是什么? 你认为你的技术可以用来模拟贸易谈判吗?Libratus现在显然需要一台超级计算机才能运行,你认为有可能使其在普通计算机或服务器上都能足够高效的运行吗?


NoamBrown:我认为这个研究对于将AI引入现实世界至关重要,因为大多数现实世界的策略交互都涉及隐藏的信息。这是我们在这项研究中要解决的根本问题。贸易谈判无疑是一个未来的应用,而拍卖,金融市场,网络安全互动和军事场景也是如此。

也就是说,将像扑克这样的游戏延伸到现实世界的互动,如行动和回报不太明确的贸易谈判,这是一个很显然的挑战。但是如果能建立一个贸易谈判的模型,这个研究肯定是可以应用的。这将是未来研究的一个有趣的方向。

是的,我认为可以做一个稍微弱一点的版本,可以运行在普通的电脑或服务器上。我也认为,随着算法的改进,将需要越来越少的硬件来实现相同的性能。我想我们在5年内就会看到在智能手机上就可以运行这些东西。

32. 提问:(1)你觉得人工智能在今后2年无法解决的挑战是什么(有> 90%的概率)?5年、10年呢?(2)你觉得还要有多长时间才能出现让人认为达到人类水平40%的通用人工智能,1-2年?2-5年?还是5-10年...难道是不到1年?(3)你能不能给出一个描述AI开发具体时间的概率(或概率分布)表?(小编注:AGI,通用人工智能。)


NoamBrown:这是一个非常主观的问题,所以我只能给出我自己的意见。


我不认为人工智能能够在未来10年内写出一个能够获奖且发人深省的原创小说。 如果发生这种情况,我会非常害怕AGI。

 

33. 提问:你会考虑接受在CMU-葡萄牙博士项目中联系你的学生吗?


Tuomas Sandholm:我会考虑的。就像我们在匹兹堡的博士项目一样,这取决于具体学生的实力和研究兴趣的匹配。

34. 提问:你要用这些奖金做什么? 有没有游艇派对的计划,我可以去吗?


NoamBrown:所有的钱都付给了专业扑克玩家(主要是基于他们与机器人的博弈和他们彼此之间的博弈一样认真)。 我当然想用一些奖金来补充我的毕业生收入啦。


  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值