NIPS2017的最佳论文今年被“冷扑大师”拿下,在深度学习大行其道的今天,一个使用非深度学习方法的研究拿下最佳论文,着实有些意外,算是“冷扑大师”创造的一个小冷门。
12月18日,《Science》上发布了题为《Superhuman AI for heads-up no-limit poker: Libratus beats top professionals》的文章,介绍“冷扑大师”的工作原理。同一天,论文的两位作者——CMU博士生Noam Brown和教授Tuomas Sandholm 在Reddit上进行Q&A问答。对大家关心的问题,比如:为什么不使用深度学习?AlphaZero会打败Libratus吗?不完备信息博弈的下一个大方向等一一作了回答。
以下为第一人称的介绍:
大家好!我们是CMU博士生Noam Brown和Tuomas Sandholm教授。今年早些时候,我们的AI Libratus首次在无限注扑克(详细说来,是一对一无限注德州扑克)中击败了顶级职业玩家。我们在持续了20天的12万手比赛中击败了4位顶级人类玩家。
我们最近的论文讨论了AI,安全和子博弈(subgame)博弈的核心技术之一,赢得了NIPS 2017最佳论文奖。
我们很高兴回答您关于Libratus,比赛,人工智能,不完备信息博弈,卡内基梅隆,教授或博士生的学术生活等问题,或者您可能遇到的任何其他问题!
什么时候会实现通用人工智能?问:AI在接下来2年到5年,或者5年到10年内,最不可能解决的问题有哪些?(概率大于90%)未来会有哪些AI进展会让你觉得(大于40%的概率)通用人工智能会在2-5年、5-10年或者1年内实现?
NoamBrown:这是一个非常主观的问题,所以我只说说我的个人看法。我不认为AI在接下来的10年内可以原创地写出一部可以获奖的、具有思想启发性的作品。如果这真的发生了,我可能会非常害怕通用人工智能的诞生。
我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。
问:Libratus没有利用深度学习。是故意为之吗?或者就是没有想过使用它?又或者是试过了,没有效果?考虑到DeepStack(另一个扑克AI,使用深度学习)的成功,如果来一次,你会考虑使用它吗?
NoamBrown:Libratus不使用任何深度学习。我们希望这有助于人们认识到AI比深度学习更重要!深度学习本身不足以玩扑克这样的游戏。
也就是说,我们介绍的技术与深度学习并不矛盾。我会把它们描述成MCTS(蒙特卡洛树搜索)的替代品。对于像扑克这样的游戏来说,深度学习并不是特别必要的。但是我认为对于其他一些游戏来说,某种类型的函数近似是相当有用的。
DeepStack确实使用深度学习,但不清楚它是多么有效。举例来说,它并没有一对一地战胜过人类玩家。我认为DeepStack做得相当好的原因是因为它使用了由两个团队独立并且同时开发的嵌套子博弈解决方案。这并不需要深度学习。 Libratus使用嵌套子博弈解决方案的更高级版本,加上一些其他的好东西,带来了真正强大的性能。
追加提问:你为什么没有最终在模型中使用强化学习?似乎是自然而然的事情。
NoamBrown :我们在Libratus中使用了CFR的变体。具体说来,我们使用Monte Carlo CFR来计算蓝图策略,而CFR +则是在实时子博弈求解中。
CFR是一种类似于强化学习的self-play算法,但是CFR另外考虑了在self-play期间未被选择的假设动作的收益。 CFR存在一个纯粹的强化学习变体,但在实践中找到一个好的策略还需要更长的时间。