智源青年科学家林乾:揭开人工智能的黑匣,从解答最基本的问题开始

林乾,清华大学工业工程系统计学研究中心助理教授,智源研究院“人工智能的数理基础”方向的智源青年科学家。过去几年里,林乾主要致力于从统计决策理论角度理解充分性降维问题,并取得了突破性的进展,第一次指出了高维切片逆回归的相变现象,并据此确定了估计中心子空间的极小极大率(minimax rate),建立了从丰富的线性回归理论到非线性的多指标模型之间的桥梁,部分结果已经以多篇论文的形式被统计学领域的国际顶级期刊发表。

据林乾介绍,他的研究经历可分为三个阶段:在麻省理工读数学博士时研究几何表示论;在甲骨文从事数据库方面工作;在哈佛做博士后时研究机器学习算法。这种工业和学术融合一体的经历,锻造了他对研究的全新认知:需要如何在数学的精巧严密和实际问题的需求之间做取舍。那么,这对他在深度学习领域的研究带来哪些影响?他将如何面对深度学习众所周知的“黑匣子”难题,在这个过程中将秉承什么样的研究方法?下面是智源编辑采访林乾的采访实录,相信会给大家带来有益的启发。

 编辑:常政,王炜强

01

打开人工智能的

“黑匣子”

智源:你主要关注深度学习的哪些问题?

 

林乾:目前的深度学习基本上是一个“黑匣子”,可能算出来的模型用来做预测效果都比较不错,但为什么会产生这个结果,以及如何进行解释我们都无从知晓。我目前一方面试图将它与传统的统计方法特别是非参数方法进行比较,想了解在某些情况下,深度神经网络具有更好的效果的原因;另一方面主要就是想知道为什么深度神经网络在参数数量远大于样本量时,常用的算法不会过拟合,并试图从数学/统计学角度解释深度神经网络的泛化能力。

 

具体来说,在一定假设下,我们知道统计中的一些非参数的方法可以达到理论上最优的收敛速度,但实际操作中,我们却发现深度神经网络有更好的表现。我觉得这个应该是最容易入手,也是最值得回答的一个问题:在理论与实际观察有矛盾的地方往往最容易发现突破点。我们现在对这个问题有一些观察:我们可以解释对于特定的分布,非参数方法的最佳收敛速度其实很糟糕,而这一类分布恰好可以由神经网络比较好的逼近;因此我们猜测真实的数据的某些特征和我们构造出来的分布的某些特征相同。

我另外一个研究主要是围绕全连接神经网络的泛化性质展开研究,预计在不久之后会产生一些结果。(编辑注:所谓全连接神经网络,指对该神经网络的n-1层和n层而言,n-1层的任意一个节点,都和第n层所有节点有连接。) 对于深度神经网络,学者们普遍关心的问题之一,便是它的抗过拟合性。现在的研究通常都是关注神经网络模型的某一个方面,对它做简化并进行一些研究,希望对简化的模型的研究可以带来对一般性问题的启发。我们的出发点也很简单,我们认为现有的简化太简洁了,得到的结论并不能够足够好的启发我们对一般的网络进行研究。我们现在主要研究全连接神经网络,并对其抗过拟合性提供了一个有几何直观的数学解释。

围绕这个解释,我们设计了一些实验,并得到了一些数值验证,但是我们可能还需要一些时间把这些观察从数学上说明白。我现在从事的研究通俗来讲即是从数学的角度去陈述“不会过拟合这件事情是相当合理的”。在我们目前的猜测下,一旦能讲清楚为什么不会过拟合,就可以回答为什么有一定的可解释性,或者设置网络的时候能够判断它到底该有多宽、多深。

如果我们对全连接网络上的抗过拟合性的解释被证明是合理的,我们希望把它们进一步拓展到CNN或者其他结构的网络上,进而解释它们的抗过拟合性(我们现有的部分数值结果表示类似的解释对于CNN其实也成立)。如果进展顺利,我们对拿到数据之后该怎样构造网络结构,以及在这个网络结构下如何选择更有效的算法给出一些指导意见。这是我们未来一到三年的计划。

从长期来看,我可能会一方面继续从事于与数据挖掘,机器学习等有关的算法和理论研究,另一方面会把这些理论和相应的方法应用在实际的生产环境中,从而将算法和实际的生产过程联系起来。

 

智源:如果要打开人工智能的“黑匣子”,你正在从事的研究是唯一的路吗?

 

林乾:这只是我自己尝试的一个解决方案,很多时候,我其实在怀疑“可解释性”这个要求是否合理,或者说我们应该在什么意义上追求可解释性。虽然目前有一些人的工作是寻求如何看到信息在神经网络中传导的过程,并取得了一些结果,但对于我而言,“要求神经网络达到可解释性”这个命题可能本身就有一点不合理。当然这只是我现在的观点。我现在认为我们有可能理解深度神经网络模型中错误结果产生的原因,但我不认为可以达到传统的统计模型中的可解释性。

 

智源:对于你现在的研究方向,国内外其他学者们的进展如何?相较于此前的思路,你正在尝试怎样的创新?

 

林乾:和我同一个研究方向的工作很多,但我并没有发现其他人跟我研究一样的问题,当然也可能是别人没有公开。在目前公开的文献中很少有人实质性的回答为什么神经网络会比非参数方法效果好。而围绕神经网络的出色的泛化性质,现在大部分文章是在讨论SGD(编者注:Stochastic Gradient Descent,随机梯度下降法)的收敛性,或者探讨在什么意义上深层神经网络比浅层网络能够更好的拟合特定函数等等。对问题进行简化、分解,先考虑我们有可能回答的问题,是研究的第一步,这些工作现阶段都是有价值的,但如果这类问题的解决对我们回答最基本的问题没有太多启发价值,那就不应该花费太大精力。具体到现在文献中公开的结果,我们可以看到这些工作并没有太实质性的进步,比如它们并没有尝试直接回答为什么在训练神经网络时不会过拟合,以及为什么由SGD训练得到的稳定点有好的泛化能力。

 

我的研究主要是尝试对以上最基本的问题进行回答,并基于自己的观察对深度神经网络的工作原理进行一些猜测。我们现在的工作模式不太像是传统的数学研究模式,更像是一个实验工作者,先提出一些猜测,然后设计一些实验去验证或否定这些猜测,再基于数值验证过的猜测进一步往前进行推理。我们现在对于深度神经网络的抗过拟合性有了不少合理猜测,其中大部分现象都是现有文献没有揭示的。围绕这些现象,我们提出了许多小的问题并对它们展开了研究和观察,在这个过程中,我们积累了许多未整体成形的想法和结果。这就像在没有图纸的情况下去从零开始拼接一个大型乐高:我们慢慢的整理出了一些(我们认为有用的)小模块,对整体的形状大致有了猜测,但具体的拼接过程还不是很清晰。我们希望能够尽快把这个工作完成,从而回答前述的问题。

 

02

行动导向

是有效的工作方式

智源:你除了学术研究,还曾经在甲骨文公司工作过,能否结合当时的工作经历,谈谈计算机产业界和数学学术研究有哪些不同?

 

林乾:在甲骨文,我从事和Weblogic 相关的工作。如果我们随意打开一个相对复杂的Web界面(比如购物页面),我们实际上是和一个有三层结构的系统交互:一个是用户所能看到的界面,一个是后方的数据库,从用户页面到数据库之间是中间层,也是Weblogic主要的研究内容。2008年,甲骨文收购了开发Weblogic的BEA公司。

刚到甲骨文确实有些令我不习惯的地方:公司要求具有快速工作的能力,我们必须先把环境迅速搭建起来,然后依据得到输出结果对自己的假设进行修正,这和我以前的数学学习经历中要求自己理解自己所学过的所有内容是完全不一样的体验。在这个过程刚开始的时候,我对于Weblogic工作原理的理解几乎是0,但那几年我却掌握了从计算机底层到应用层的大部分逻辑。在甲骨文工作的几年内,我意识到了自己以前学习方法的局限,意识到最有效的工作方式应该是行动导向,在工作的过程中去学习所需要的工具和知识。

 

智源:可以理解为你现在的研究工作是受到了甲骨文工作经历的影响吗?

 

林乾:如果没有在甲骨文的工作经历,我可能还认为研究应该是把一个问题所有可能的情况都想清楚之后再动手去做,而且对于问题的价值判断会更多的从数学结构的精巧性上去评价,更是会对一些复杂的问题有一种畏难的情绪。但现在如果我想开始一个领域的研究,我通常就只是问自己一些最基本(也许无法回答)的问题,然后围绕这个问题展开论述,看看自己是否能够找到和已有工作不一样的视角和观察,并基于这些观察对于问题的全景进行展望,看看自己最终有可能得到的是怎样的作品。在这个过程中,如果遇到数学上无法短时间内证明的猜测,我会先借助于计算机去进行大量的验算,并将得到数值结果支持的猜测作为下一步工作的基石,进一步探索更有意义的潜在结果。

 

在甲骨文与其它背景同事的交流合作,塑造了我对做研究的理解:我们不需要在一开始的时候将回答建立在严谨的逻辑链上,而是应该快速的找出对感兴趣的问题的一个合理的回答,再花较多精力时间夯实数学基础,解决相应的技术难点。

 

03

问最基本的问题

尝试回答和比较

智源:请总结一下你在科研生涯中最受用的一个方法或准绳。

 

林乾:我兴趣比较广泛,对非平凡的理论问题和有意思的应用问题都很感兴趣,但是自己真正下手去研究的问题不算太多。结合这些有限的经验来看,我能够做得动的问题都受益于自己对它们有比较简单的与众不同的观察。具体到一个特定的领域,我一般会问自己最基本的问题,或者是作为外行最感兴趣的问题,随后我会通过尝试回答这些问题来整理自己的思路。当自己的思路成型后,我会与已有文献进行比较,如果存在不同,通常我就会觉得我找到了较好的角度。这样的一个好处是能够保证找到一些具体的小问题,从而肯定有一些结果,另一方面,在研究这些具体的小问题时,以前的数学训练就会带来很大帮助:它们能够帮助我把这些小的突破点展开成为一些成体系的工作。所以我现在比较喜欢从最基本,最简单的问题开始研究,特别是愿意花更多时间对研究对象进行观察。

 

智源:你对从事基础科研人员的研究工作有什么建议?

 

林乾:我只能说有一些教训吧,就像刚才的描述,我现在的研究成果都是基于较小的观察,然后据此展开成体系的工作。因此,多问自己一些最基本的问题,发现与众不同的观察可能对研究有帮助。另外,兴趣宽泛一点、多与人沟通,可能会更容易找到自己感兴趣的研究课题,特别是像人工智能或统计学这种理论和工程结合的行业。

04

期待平等交流、

互动频繁的师生模式

智源:结合在国外学习的经历,你觉得在学生培养方式方面,国内外有哪些不同?

 

林乾:可能国外导师更多的是把学生带到工作环境,让学生在做具体问题的过程跟着导师学习,而国内的学生培养则更多倾向于通过课程把基础打好。前一种方式可能对导师和学生的要求都会更高一些,但收益也是明显的:学生通过实际解决问题积累了对从事研究工作的信心,在面对未知的困难时会更加积极一些;而后一种方式往往由于课程面向的对象水平参差不齐,很难说最终达到的培养效果是怎样的。

 

智源:对于从事卓越的研究工作,国内外的学生有无不同?你期待一种怎样的师生模式?

 

林乾:可能国内的研究生追求卓越的意识会稍微弱一点。根据我自己的经历来讲,在MIT做学生的时候,能够觉得我身边的一些同学有一种我就是要努力成为这个领域最好的几个人的自觉。具体到我个人的经验,我自己会去读相关几个领域最好的人的工作,在这个过程中会不知不觉的提高自己的研究品味,从而形成自己对工作好坏的评价, 并指导自己选题。而可能大部分国内学生还主要依赖杂志或者会议的好坏来评价工作,没有形成自己对工作好坏的判断。这种自发的追求卓越的环境对于较好的学生的影响可能会更大一些,其实人可能还是同一个人,但在不同的环境下可能对自己的要求不一样,最后导致产生的结果也不一样。

 

在MIT有很多知名教授,你只要想找他,可以去办公室直接敲门进去。这种情况在国内有点少,至少我没有看到有学生来敲门找过我交流具体的学术问题。与学生之间的探讨很多时候可以帮助我们从不同的角度看问题,这往往会带来很多意想不到的收获。我期待师生间在学术交流上应该平等、互动频繁。

 

- 往期文章 -

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值