独家 | 专访田渊栋:AlphaGo之后,研究智能围棋还有什么意义?

没有什么是永垂不朽的,没有什么会一直昌盛,所以我宁愿做点真正有意义的事情,来致敬这个风起云涌的人工智能时代。

-------题记。

近日,田渊栋受地平线曾经在Facebook的同事邀请,赴中国做了一期大牛讲堂,分享了关于游戏和增强学习等的话题。分享会后,AI科技评论采访了田渊栋,就他为什么离开Google无人驾驶团队去Facebook人工智能研究院,现在正在做的工作,如何平衡工作中理论和应用的比率,怎么看待绝艺和AlphaGo的棋艺水平,怎么看待智能围棋的实用价值,接受了AI科技评论的采访。以下是采访正文。

独家 | 专访田渊栋:AlphaGo之后,研究智能围棋还有什么意义?

1. AlphaGo目前是世界第一的围棋选手,在此之后,研究智能围棋还有什么意义?

我觉得围棋是很有意思的游戏,AlphaGo虽然把它做出来了。但很多东西的做法和人是不一样的。人在学围棋的时候有很多概念,按照概念做判断,但是机器解决他还是比较暴力的。

  • 一方面,你可以说人用概念来做推理局限了他的计算能力,体现出人本身有一个高度抽象的能力,就是用非常非常局限的计算能力,能达到那么强的棋力。而AlphaGo就是用非常多的计算能力去弥补这些不足,所以恰恰是互补的,我相信还是有意义的。

  • 另一方面,联系到后面那个问题(目前你的研究团队,对围棋AI的研究进展到何种地步?相比AlphaGo如何。),我们这边在开源之后就先放在那儿了,可能等到以后我们有新想法再拿过来试一试。我们这边是七八十人的研究机构,要让我们花二十人做围棋,这个是不可能的。我们这边都是很有名的研究员,这些研究员每个人都有自己的方向,像计算机视觉和自然语言处理等等,不可能把自己的方向放弃掉来专门(搞围棋)。

  • 最后,从本质上来说,我们的风格跟其它公司不一样。我们研究员的一个目标是说在大家不做这个东西的时候,在比较冷门或者大家不相信它能做得更好的时候去做它,证明这条路能走通。比如说我们在做DarkForest的时候,围棋还是很冷门的方向,大家都不认为围棋可以做出来。我们的文章比AlphaGo早了三个月出来,证明这个东西确实有效果,而且能提高挺多的,这就是我们的贡献。我之前在采访里面说过,好的研究就是“于无声处听惊雷”。

像星际这样的游戏,大家都不知道怎么做,研究员们的任务就是要想办法找到一些突破口,这个突破口可能没有人想到,或者是没有人觉得能做成,我们的目标是在这儿。我回到第一个问题,就是说智能围棋之后还有什么意义,就是我刚才说的,如果有人愿意想要做下去的话, 就看能不能自动从里面学出一些概念来,学出一些有意思的东西,比如说人有大局观或者是大势,或者是各种下棋时候的概念,概念是不是能从这里面自动学出来。像这些,目前大家都没什么办法。

(你说大局观吗?)

对,像这样的东西其实对于我们如何理解人的思维方式是更重要的。职业棋手是很厉害的,人脑的神经传导是毫秒级的,这点时间机器可以干很多事情,但人就是用这么慢的处理速度达到了这么强的水平。

2. 绝艺和AlphaGo有差距么,差距是多少,是什么造成了这种差距?
  • 这个我稍微看了一下,我觉得绝艺肯定是比Zen要强挺多,200手不到就让Zen认输了。我之前看新闻是它对职业棋手可以战胜80%甚至更高,所以我相信它已经是做得非常好了,我相信它肯定是超过了或者是相当于AlphaGo之前Paper(AI科技评论注:2016 年 1 月 28 日,Deepmind 公司在 Nature 杂志发表论文 Mastering the game of Go with deep neural networks and tree search,介绍了 AlphaGo 程序的细节。)的水平,但是它跟现在的Master相比,可能还是有差距。

3. 跟AlphaGo 3月份比赛的水平比如何?
  • 跟3月份(对战李世石)的时候这个我不好说,我只能说和Nature那篇论文相比做得好, 当然了跟Master比是有差距的,现在Master所有对战是全部都是赢的,没有输的,胜率是100%,而且都是赢的莫名其妙。Master赢了你,你都不知道什么地方出错了,好像下得挺好的,然后就输掉了。所以就是已经到了不知道错哪儿的程度了。我相信他们应该用别的方法做训练的,而不是单纯拓展之前的文章。像我是听说他们最近把训练好的值网络单独拿出来,根据它再从头训练一个策略网络。我觉得这样做的好处是会发现一些看起来很怪但其实是好棋的招法,毕竟人类千百年下棋的师承形成了思维定式,有些棋在任何时候都不会走,所以按照人类棋谱训练出来的策略网络终究会有局限性;而用值网络作为指导,从头训练一个策略网络的话,确实会发现很多新招。

(AlphaGo用其他的方法迭代的?)

  • 我相信他们也用了别的办法,但是细节我也不知道,因为我最近也没有做,所以我也不知道他们用什么样的办法,我觉得这方面需要创新。

4. 绝艺这次是跟电脑围棋比赛,跟下一次的真人比赛区别在哪?
  • 电脑围棋我们之前也参加过,就是大家坐着,连上之后让计算机自己下,下到什么地方就说我输了你输了,然后就结束了,有可能说我们看看剩下好像不行了,但是机器误判,就让人去认输。 基本上是这样的过程。

(那我可以这样理解吗?跟电脑围棋比赛的是两个既定程序的对战,比如说电脑围棋绝艺跟真人,比如柯洁对战的时候,是变动性更大一点,是吗?)

  • 我相信是的,因为电脑围棋至少在之前都是有些明显的风格,比如说有些喜欢在角上和你拼,不愿意去外面抢大场。人可能能看出来这个风格,就会击败它,特别是水平不是很高的两个AI下的话,很明显能看出问题,比如我们DarkForest就有死活的问题,我们自己会说,你看这里下得不对,肯定是这里下错了,这个地方他可能判断有问题,以为这块棋是活的,其实是死的,所以会有各种各样的问题。当然了,如果是达到绝艺或者是AlphaGo这样的水平的话,我肯定是看不出来,我需要计算机辅助帮我下到后面才能看到,但是我相信职业棋手还是能看出来,但Master我不知道,我不是特别清楚。

5. 以DarkForest为例,除了围棋,这种完全信息博弈的游戏智慧要应用在其他领域需要解决哪些问题?
  • 我觉得现在这个系统是针对于某个问题做特别优化,我之前在 talk里也说了,那么多方法,要依照不同的游戏用不同的方法,没有那么通用的。比如说你在国际象棋上用蒙特卡洛树搜索肯定是不行的,你可能漏搜了某一条特别重要的分支,然后导致一个杀王的走棋序列没有看到,这是非常有可能的。所以整个AlphaGo是一个大的系统工程和框架结构,它需要有几个人每天花时间在上面,还得每天不停地调啊调。所以说,现在所谓的 “人工智能” 还是比较弱的,还是需要人去监督,然后把它做出来。

(如果是要针对某一个特定领域呢?)

  • 就是我刚才说的,你先要对这个领域有了解,然后去设计。比如说围棋和国际象棋就不一样,国际象棋每步的可能性比较少,对局面的判断相对容易,因为这个原因,你要换一个方法做,而不是用原来的方法做。所以对于方法的选择,其实是完全依赖于这个问题本身的,所以这个是需要大量的人工智能相关知识才能做出来的。

6. 你刚才讲PPT的时候,讲到你们的围棋理论可以应用在游戏方面,还有其它现实生活中的应用场景吗?
  • 一个问题就是说像完全信息博弈游戏,你知道你下完这步后局面会变成什么样子,你心里非常非常清楚。但到了现实世界的时候,有时候并不那么清楚,没有一个现实世界给你玩,你做完决定之后你得对这个决定的后果负责,所以对这个世界在你下完决定之后变成什么样子,你要有一个大概的估计。

  • 所以你在现实世界做规划的时候,其实需要一个前向模型(forward model), 就是你对将来会发生什么事情的一个预计,前向模型是一种规划,是对将来会发生什么样事情的预计 。比如说你下完这步之后,可能整个情况变成什么样子,之后你再做下一步的计划。所以这个其实是很大的问题,是游戏和现实生活中是不同的。

7. 能详细介绍一下前向模型?
  • 前向模型就是你要对现实世界的运行规律做一个模型。比如说你这个房子过了几年会变成什么样子,比如说这朵花过几年会变成什么样子。你当然不可能能预测所有细节,要找到关键性的方面,才能让你的蒙特卡罗树之类的搜索产生效果。比如一个国家30年后会怎么样,和现在这束花是不是会枯萎没什么关系,但可能和大家的收入统计有关系。所以关键就是怎么对现实世界来做出抽象的建模。

8. 我们看到绝艺那边,腾讯的副总裁姚星说他们可以把其 “精准决策” 能力用在无人驾驶,量化金融,辅助医疗等,这个是不是说得太早了?
  • 长远来说,通过在绝艺上投入的人力和物力,这些工程师的思考本身可以变成经验。比如说它在人工智能上通过对于绝艺的提高,他知道了蒙特卡罗树的适用范围,知道了增强学习算法的适用范围,对这些算法有一个切身的理解。这样之后,如果去从事其它方向的AI,就更加得心应手 。

  • 我不知道“绝艺”是怎么做的,如果他们用的是Alphago相似的(原理)的话,要用到其他领域上,就不是特别容易 。比如说像辅助医疗,可能更多的是去识别图片,去怎么样去找到病变组织,这个其实更多的是图像识别的问题,而不是说关于决策的问题。所以这个其实关系不是特别大,但是不好说,说不定他们有方法。

9. 李开复之前说 “AlphaGo 其实做了相当多的围棋领域的优化,除了系统调整整合之外,里面甚至还有人工设定和调节的一些参数,因此还不能算是一个通用技术平台,不是一个工程师经过调动API就可以使用的,而且还距离比较远。”假如要应用在其他领域,以金融为例,这套系统大概需要改动或调整多少?
  • 这个我也不知道多少,感觉是完全不一样的。你说金融领域,关键是你想要解决什么问题,你想预测股票价格,还是想要预测什么?

(比如信用体系一般比较多。)

  • 根据不同的具体问题可能又是完全不一样的方法,所以你没有办法说把这套框架用在某一个很大的领域,因为这个领域有很多问题,你得列出来,对应每个问题去想这个方法能不能用,所以我觉得这个问题其实很难回答。

(这个是要靠AI加某个垂直应用场景的实践,是吧?)

  • 嗯是的。目前为止现在还不存在一个强人工智能,像人一样什么都可以学会,现在没有这样的东西,所以现在对应具体的问题我要具体分析,根据这个问题再分析,决定用什么样的模型去做它比较好,所以现在是处于这样的状态。所以说机器还不能自己决定用什么模型,还是需要人的输入 。

10. 你除了围棋还有其他的研究领域吗?
  • 我们现在主要在做增强学习在游戏上的应用。比如说我在Talk里面讲了围棋和最近在第一人称射击游戏上的应用。另外我也做理论,比如说对于二层神经网络做一些收敛性分析,像这个非凸优化问题,要怎么分析才是好的。

(现在最主要的哪一部分是重点?是理论还是偏应用。) 

  • 重点当然是偏应用。理论这个是我以前读博的方向,也是我个人爱好,我自己比较喜欢,觉得深度学习之所以效果好,肯定有其背后的原因,这个是很重要的问题,需要人去理解,不能放弃。当然纯做理论风险比较大,这个大家都知道。

11. 其实之前看你知乎的文章,好像是讲过目前深度学习在复杂推理的一些,还有今天的分享里面你也讲了有一些进展和挑战,在这么多挑战里面,最大的一个挑战是什么?
  • 其实有很多点是挺关键的,没有特别重要的,说我们就差这个点了,不是这样的 。其中一个就是你怎么样去像人那样有高层的建模能力,人可能对一件事情会有比较整体的把握。什么是战略上的。什么是战术上的,什么是具体执行上的。人在处理问题时很自然就会有这样层次式的思考方式。目前为止很多人想做这个。虽然你可以设计很多模型,但没有看到特别稳定的,很多模型听起来很好,但是训练的时候,效果会有问题,会有很多实际的问题,没办法做到跟你想象中的那么好,这是一个问题。另外比如说,如何让机器能在外界监督信号极度稀缺的情况下学习,如何做无监督学习,如何把传统符号推理和深度学习结合起来。

12. 你刚才说的目前研究的领域来说,能透露一下你最近一段时间比较重要的进展?
  • 我觉得,理论上来说有一些小小的进展,我之前做了一篇文章研究了两层神经网络的动力学系统,神经网络它是怎么收敛的,需要什么条件。 像这个就是更偏研究类型的。实践上来说,有一些东西我们在做,不方便说。另外就是多看文章,现在还处在一个积累的过程,多看点儿文章,多理解一些别人做的工作,就会有一些更多的想法。

下一步工作也是围绕上面说的那些,继续往下进行?

  • 对。

13. 你目前负责项目和研究领域在整个Facebook公司的架构里面,是处于一个什么样的位置,起什么样的作用?
  • 其实现在是这样的,我们组是比较偏研究的,所以我们组的东西不一定要跟产品组有直接联系。我们做的东西都会比较前沿一点,不一定会有直接的应用,这是我们这个组很好的地方。我们公司也赋予这样的自由度。你想,你做的东西完全跟产品挂钩,每隔几个月就要求汇报进展,那这样的话最后的结果就是大家只找最容易做的那些方向,在原来的系统上修修补补。这样大家就不会愿意去想更多的东西了。

(像您刚才说的做研究,需要把一个现在还冷门的东西钻进去。)

  • 对,比如说训练围棋,当时没有多少人知道这个东西。做研究最重要的是能够在那么多方向上,你能看到一个方向是对的,愿意花时间把它做出来,证明它是对的,这个是很重要的。

(之前看过您那篇在谷歌和Facebook的一个比较,在谷歌是没有这种自由度的?)

  • 不能这么说。因为在谷歌时我在无人车组,这是个产品组,决定了必须要有一个非常清楚的脉络和将来的走向。我当时其实也是想做一些开放性的东西,但是觉得环境也不是特别适合,所以就走了,这是原因之一,我并不是说这个组不好,这个组挺好的,确实是因为我个人的志向和组里的发展方向不一致,所以我就走了。

14. 你其实特别喜欢写博客和杂文,甚至我还看到有古文,我想问写作不管是中文的还是英文的,对于你研究来说有什么帮助?
  • 这个我觉得是一个思考的方式,东西要写下来之后你才知道什么地方出问题了,一个典型的例子就是做数学证明嘛,你觉得好像是对的,但是你写下来才能证明,很有可能一落笔就发现错误了,这个是司空见惯的事情。

(但是其实写博客和写论文还是两种东西嘛,因为写博客可能不会写得那么深。)

  • 论文当然抠得细得多,但大方向都是一样的 。写博客的时候一样要有逻辑,很多话当时想的是这样,但是写下来发现这两句话不连贯,或者是逻辑不通,所以你在整理的过程中其实就是在整理你的思路,这个是挺重要的。

15. 经常看见你说表达的重要性,它在你不管是做研究还是之前在谷歌做产品的时候,它扮演了一个什么样的角色?
  • 这个对研究来说非常重要,研究者的一部分工作是要把自己的成果公诸于世。要以清楚的语言概括在做什么,所以这个其实是我作为这个职位的要求之一,所以这个重要性就不用多谈了。

(必须要把现在这个事情给别人说清楚,得到别人的认可?)

  • 对,你要跟别人说清楚,当然公司里面还好,但你在学校里边的时候,你在团队里面作为技术带头人,必须出去跟其他公司谈,或者说跟上层说我需要资源做这样的事情。这样表达能力就非常重要了,如果你没有办法表达清楚你想要做什么的话,别人不一定能相信你,也不会给你各种资源。另外比如说你遇到的人才,觉得你做的东西他没听懂,或者是不知道你在做什么,他也不会愿意跟你一起共事。作为一个研究员来说,或者是任何在研究这条路上愿意走的后辈人来说,这个很重要。

16. 对于AI领域的后进者们,比如说学生、创业者或者是研究者们来说,你作为一个过来人,当然还在继续往前走,对他们有什么建议?
  • 第一点,我不是什么过来人,我还要往前走,我也觉得我也只是很多方向刚开始的人,我也不觉得我是一个非常资深的研究员。你之前说我是高级研究员,我们组没有高级研究员这个头衔。

(你现在在Facebook的头衔是什么?)

  • 头衔就是研究科学家,其实就是研究员。我也不觉得我自己做得有多好,只能说很多事情尽力了 。如果你要翻一下我两三年前的文章,我之前是做非凸优化在图像扭曲上的理论分析的,很荣幸地拿了马尔奖提名。我都不是做这方面(深度学习)的,我也不是做强化学习的,这些方向都是我最近觉得很有意思,然后自己学并且尝试做的。所以从这方面来说,我对目前我的工作觉得还行,想想只有一两年时间,会有这样的知名度和曝光率,这已经是出乎我的意料了。但是不管怎么样,曝光率再高,我觉得我自己还是要往前走的,我有很多东西不懂的,前面的路还很长的。所以要说对于其他人的建议,我觉得是就静下心来做事情,文章该看的要看,该学的要学,程序该写的要写,该调通的调通,一步一步往前走。

(就是把眼前的事情做好?)

  • 对。当然方向还要看清楚的。做为一个研究者,要自己看文章定方向,不能人云亦云,这个是身为科研人员最重要的特质。然后做自己想做的事情,重要的就是要做自己想做的事,并且花时间在上面。不要说今天公司有很多钱,我就去了,这样的话对将来的发展不是特别好的,希望大家能找到自己想做的方向,主要是这一点。还有就是珍惜时间吧,大家的时间都是很宝贵的,如果愿意做一些事情,就早点行动,把事情很快地做好。另外要不断地提高自己。

小结:

AI科技评论在采访田渊栋的时候,

  • 在问到DarkForest现在的进展时,他表示 “我们这边其实目前还没有继续做,在开源之后就先放在那儿了。”。

  • 在说道人工智能有什么意义的时候,他表示“就是我刚才说的,如果你继续做下去的话,我们想能不能自动从这里面学出一些概念来,学出一些有意思的东西……像这样的东西其实对于我们如何理解人的思维方式是更重要的。”

  • 在问道你现在在Facebook的头衔是什么时,他表示我的“头衔就是研究科学家,其实就是研究员。”

类似这样的风格的回答很多很多,给近在迟尺的AI科技评论展现了一个直白坦率,严格待己,谦虚待学的生动形象。这跟我们采访AI业界公司大佬时他们觉得他们能解决这个问题,他们没遇到什么困难,他们即将所向披靡的那一面然不同,眼前的这个年轻科学家体现的是学界人士低调,谨慎,求是的另一面。但值得一提的事,AI科技评论看到那张谦逊却带了一点点桀骜不驯的脸的背后,的是一个对自己有极高要求,对理想有极高追求的,不愿意人云亦云,却希望真的在人工智能领域有所作为的科学家的心。在孤独和庸俗,在跟着心走和大流之间,他选择了孤独和跟着心走。

本文作者:宗仁

本文转自雷锋网禁止二次转载,原文链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值