港中文「1026 实验室」往事:贾佳亚与他的学生们
原创 郭思 陈彩娴 雷峰网 2023 年 07 月 20 日 18:18 广东
“属于他们的黄金时代仍在继续。 ”
作者 | 郭思 陈彩娴
编辑 | 岑峰
那时他们觉得自己会永远生猛下去,未来也还给了他们一个黄金时代。
01 AI 大潮来临之前的先行者贾佳亚
2004 年,完全算不上人工智能发展史的大年,却是计算机视觉先行者贾佳亚和他带领的学生们开创的黄金时代的开端。他们起身、行走,以好奇心为导航,在人工智能的茫茫星野中进行无穷尽的探索。有时发现一些闪着光的宝贝,他们拾起,在行业中应用,然后继续行走。行者无疆。
故事开端是那年秋天,一个小伙子穿梭在香港新界沙田的林荫大道上,目的地是香港中文大学 (下文简称港中文)。
小伙子年仅 25 岁,刚从香港科技大学结束博士生涯,拿到一封微软原全球执行副总裁沈向洋的推荐信。他有两个选择,去美国如麻省理工这样的高校继续攻读博士后,或直接在香港高校任教职,但没想到香港中文大学直接给他发了 offer。于是他投身于这所学术界圣殿,开启了近 20 年的教职生涯,并持续至今。
这个小伙子便是独角兽企业思谋科技 SmartMore 创始人、董事长,香港中文大学终身教授贾佳亚。
贾佳亚
早期「摄影” 器材” 发烧友」是贾佳亚身上一个显著的标签。
2000 年前后,数码单反相机刚出现时,一张图像只有 262 万像素,模糊、噪声大、颜色不艳丽。
贾佳亚常常盯着照片思考:「DSLR 本来就是数字化的数据,没有可能用先进计算机算法让数字相机拍出来的图像更漂亮?」
正是这一寻常的好奇,点燃了他选择研究计算机视觉最本真的初心,也成为了他终身的追求。
时间回退到 2000 年,贾佳亚从复旦大学本科毕业。恰逢国家教育部和香港科技大学保送计划选拔名额,排名前列的贾佳亚与刘江川(香港地区第一位微软学者,IEEE Fellow,加拿大院士)以及陶宇飞(ACM Fellow,现港中文任教)被保送至香港科技大学。
在香港科技大学读博期间,出于对图像的热爱,贾佳亚在「AI 黄埔军校」微软亚洲研究院最辉煌的时期做了许多相关研究,跟随时任研究院视觉组长的沈向洋在第一线深耕后,希望在该方向继续有所造诣。
早期,他主要研究数字相机摄像头相关的图像问题,如图像增强(去雾、去模糊、去噪声、增强)、图像平滑等。这个方向有个鲜明的标签 ——“计算机早期视觉”,相对小众,关注图像视觉成像部分。他也是该领域的早期领军人物。
贾佳亚的好友、学生不止一个场合提到,他是一个无比勤奋刻苦的人,哪怕大年初一都在 “肝” 论文。
2002 年 1 月 13 日晚,微软亚洲研究院灯火通明。这是中国传统节日大年初一,亦是 SIGGRAPH2002 截稿日的前几天,对于贾佳亚而言,这也是他连续五天通宵的日子。
在此之前,他与孙剑(生前为旷视科技首席科学家、旷视研究院院长)等人已经花了三个月准备 SIGGRAPH。
每天工作很久,从 10 个小时到后来 12-14 个小时。临近截稿,他们干劲反倒愈足,只是体力实在略感吃力。
「做高端研究的终极理解:它其实不是脑力活,而是体力活」。
在这之后的两三年内,贾佳亚的名字频频出现在 SIGGRAPH 会议上。他和孙剑等人也是首批可以投 SIGGRAPH 论文的华人学者。
待到 2004 年博士毕业时,贾佳亚的手里已经有两篇 SIGGRAPH,其中一篇他是一作,此外还有 2 篇 TPAMI、3 篇 CVPR。
CVPR、TPAMI 均是计算视觉的顶级学会,SIGGRAPH 更是拥有 40 多年历史的图形学顶级会议,SIGGRAPH 论文被誉为业界的魔鬼级论文,中标率只有 10%,对技术创新性上、写作表达、demo 展示等各个环节要求均十分严格。
严格程度可通过一个细节佐证。如果你上网搜索 SIGGRAPH,网上出现的攻略是《如何让你的论文被拒》。
科研硕果累累的贾佳亚,早已引起了港中文计算机系的注意。
2004 年,凭借出色的学术研究资历和导师沈向洋的极力推荐,贾佳亚被港中文迅速录取为助理教授。因为录取时间接近年尾,贾佳亚要到第二年才能正式招生。
于是他就自己单干了一年,其实这正合他意。
自开始做研究以来,他自己摸爬滚打,艰苦奋斗,养成了不喜欢求人的习惯。有时,他是一个喜欢自己在前沿研究无人区探索的「独行者」。
因为拉不下面子,所以开口向学校要科研经费,成了贾佳亚一大挑战。「那时候特别苦,经费也不多,自己探索的领域对外人而言很难明白」。
2005 年,贾佳亚正式开始招生,他意气风发,定下了一个颇有雄心的目标:
我要汇聚像我一样的研究人员,去跟美国名校的顶级学者和学生去竞争,我要证明,我们团队不输他们。
在清华计算机系的内部 BBS 上,贾佳亚丢出一道 SIGGRAPH 题目,并表示第一个做出来的人,就会成为他的麾下弟子。
题目一出,20 多个清华学子报名。
但年轻单纯的贾佳亚为了信守承诺,硬是只为「全力培养最好的研究人员」招了一人(其实答对题的同学都可以招进来),正式开始他的教职生涯。后话:这个学生就是熊伟 Wayne Xiong – 从贾佳亚那里毕业 10 年后作为第一作者和微软 Fellow 黄学东发表了一篇著名的论文(参见官宣:Microsoft researchers reach human parity in conversational speech recognition),宣布在计算机语音识别能力上用算法第一次超越了人的能力。此事按下不表。
此后,贾佳亚也陆陆续续招了好几个学生。
组建团队后,贾佳亚「严师」的名头开始打响。
早期发布 SIGGRAPH 的经历练就了他在写论文与做研究上的完美主义,亦拔高了他的眼界,在贾佳亚指导下,学生写的论文几乎都像艺术品一样,从语法到每一张图,都要反复雕琢。更为有趣的是,体力好,能打仗也成为了他对学生资质的要求之一。
「做研究还是得身体好。」
只是如此高的要求,使得贾佳亚在任教前五年,团队里没有博士生能顺利达到他以自己的画像为参照的要求,而难以拿到哲学博士(PhD)学位。他甚至一度觉得自己的要求是不是定得太高,这样下去学校对贾佳亚升任副教授要求的 —— 至少一个博士毕业 —— 就达不到了。
幸好世界这么大,不缺聪明而又身体好的学生。2007 年,徐立加入了贾佳亚团队。
02 一代严师和一群顽徒
在武林江湖上,一代宗师的背后,往往站有一群有能力的顽徒。这个定理同样适用在贾佳亚身上。
香港中文大学工程院依山而建,绿荫环绕,工程院顶楼有个计算机视觉实验室,贾佳亚的学生都在这个实验室,门牌号是 1026。
实验室人丁兴旺,传统良好,每天半夜都是灯火通明。研究生的习惯基本都是做科研到半夜,有时会议交稿期(deadline)来了,通宵也是常事。
实验室有一个供交流的圆桌。
徐立来了之后,逐步把它发展成为打三国杀的场地。研究做到半夜,通常会招呼大家一起打一局,前提是系里的教授都离开了办公室。那段时间里,贾佳亚往往是最后一个离开办公室的教授。
于是,年轻的学生往往被遣往侦察教授是不是离开了。这通常也是对新入学的师弟的考核:“学会如何侦察教授动向。”
入学不久,新生就能熟练掌握这项技能。
当然,凡事都有例外,有时大家已经开始了牌局,战斗正酣,忽然实验室门被打开,贾佳亚走了进来 (通常是走了之后又想起些什么再回来),七八个人面面相觑,动作石化。
“Leo,你来了。”
Leo 是贾佳亚的英文名。
体育界常常会形容某些球星自成体系,以此渲染他们的影响力,来到贾佳亚实验室后,徐立也很快形成了自己的影响力,只是没想到最先体现在带大家娱乐上。
徐立本硕毕业于上海交通大学,进入港中文时,贾佳亚已有了两年的指导经验,对招收优秀人才有了更多心得,例如他招生放宽了学历要求,但是对学生的综合能力提出了更高的要求。
徐立
在这种标准下,研究能力强、能说会道、头脑灵活,极其聪明又自带自由主义气质的徐立,被贾佳亚一眼相中。
贾佳亚和徐立的性格并不相似,甚至可以说有点相反。
贾佳亚是一个完美主义者,他交给学生做的许多工作,看到学生做得不满意,给他们讲了几次都听不明白,或者学生对问题的理解没有达到他的深刻程度,贾佳亚就会自己接过来做,自己把问题解决。
贾佳亚审核论文非常认真负责。他还经常在觉得学生的论文实在差强人意之时拿来自己重写。有一次,贾佳亚住院大手术,醒了第一件事就是把马上要投稿的论文拿来一字一句的修改。他那时候不能忍受一句话中有明显的英语语法错误和不专业的问题。
当时贾佳亚的研究方向是 “computational photography”(计算影像学),聚焦在前期视觉产生过程,包括抠图(matting)、图像重建(reconstruction)、超分(super-resolution)等,其中去模糊(deblurring)是图像重建的一个重要方向。
图像去模糊顾名思义便是使得失真的图像恢复到它本来的模样。把一张模糊图片交给人类设计师,处理起来也相当费力。
因为图像的模糊有很多种可能性:镜头的缺陷、相机的抖动、场景的运动、景深的限制、后期的处理等等,需要先判断到底是哪里出问题了,此外还得对整个图片模糊程度以及周围布局进行预判。在没有深度学习以前,贾佳亚的处理方式是思考如何把变模糊的数学过程还原回来。这个问题被认为是传统图像处理大方向中皇冠上的明珠,2006 年前后都还是没有合适的解法,里面涉及的非线性优化问题尤为棘手。
类似的工作还有视频去噪声(denoising),就是把一个低解析度的图像或视频变成高清的视频,不是单纯的放大,而是使其看上去很自然。这一系列的工作并不是空中楼阁,而有实实在在的应用场景。当时贾佳亚在香港找了一些机构合作,这些技术会应用于修复老电影,还有香港警方的办案中,早期 Adobe 里的 PS 技术和一些手机内置的图像美化软件应用了贾佳亚团队的一系列算法。
彼时的贾佳亚像一个精通视觉算法工艺的匠人,对算法精雕细琢,然后进行图像的去模糊等工作,他也是图像去模糊、滤波、图像稀疏处理、多波段图像信号融合等领域的代表性人物。
总结而言,他所做的研究一直是在用计算机解决人眼看不到,看不清,看不细的事情。
值得一提的是,贾佳亚团队 2008 年发布在 SIGGRAPH 的 “High-quality Motion Deblurring from a Single Image” 是盲反卷积算法的经典文献,是现代图像处理的优化方法的基石之作,后来的很多高效算法都是对它的改进。再后来,徐立在此基础上发表了一系列的更有效,更快速,更先进的算法,彻底奠定了传统优化时代中,贾佳亚团队在此领域的绝对领先地位。
除此之外,在港中文任教期间,贾佳亚共发表了 200 多篇顶级论文,被引用超过 6 万次。其算法产品界面日调用量已超过 500 万次。
香港中文大学贾佳亚研究成果资料展示
说回徐立,徐立第一篇论文是关于深度视觉的,他之前没有接触过这个领域。
徐立后面回忆道,“看过初稿后,贾佳亚不轻不淡地说了一句,「你能用人类能懂的语言写文章吗?」” 这句话一直成为之后师生之间的笑谈。
但徐立优于常人的点在于他一点就通,擅长举一反三。同时善于沟通,会与导师反馈自己的进展,及时调整方向。到徐立写第二篇、第三篇论文的时候,贾佳亚对他的干预就减少了。由于出色的学术表现,博士一年级徐立就获得 “微软学者” 的荣誉。
徐立(右二)博士期间获微软学者
2009 到 2011 年期间,经常有行业的老师会拿徐立的文章作为上课的课件。因为他的文章代码不超过 100 行,本科生就能复现出来,但观点却很有开创性。
回顾徐立的学术生涯,成就可圈可点, 他三年完成博士学位,在视觉领域国际顶级会议、期刊上发表超过 50 篇论文,引用超过 13000;三个算法获得视觉开源平台 OpenCV(世界上最流行的计算机视觉库之一)收录,其中 L0 Smoothing 为图形学期刊 Transaction on Graphics (TOG) 五年论文引用之首 (2011-2015)。这些成果都是他在创业之前完成的。
每次顶会的 Deadline 来临时候,师弟师妹们都很紧张,徐立还是很淡定,因为他能承受压力时候理清楚优先级,规划好每个步骤。甚至能在晚上有空带着大家娱乐。
「我人生中第一次知道,原来打牌打得好也是高智商、能做好学问的一个重要证明」贾佳亚说。
而在贾佳亚的印象中,卢策吾是唯一一个不打牌的乖学生。
卢策吾
只不过,贾佳亚对卢策吾的好印象来源于一个美好的误会。
在大师兄徐立带领实验室集体打牌的那次,贾佳亚推门而入,全部的学生都在打牌,只有卢策吾在电脑面前。实际上卢策吾只是恰好要去挂程序所以才叫大伙先开打。(到卢策吾毕业前,贾佳亚都觉得卢策吾不打牌)。
2009 年,卢策吾在中科院硕士毕业,他在微软亚洲研究院实习时就听过其在图像处理领域的大名和杰出成就,慕名申请贾佳亚的博士。
SIGGRAPH Asia 2011 引用最高的论文 “Image Smoothing via L0 Gradient Minimization” 便是由卢策吾与徐立共同完成的。
论文主要对图像平滑(改善图像质量的方法)进行了创新,以往一般的平滑方法是用一些平滑卷积核(比如高斯模糊核、均匀滤波等)滤波,模糊牺牲图像的的边缘,而这篇文章中提出一种基于梯度的平滑方法,在保留较大的梯度(图像边缘)同时去除较小的梯度(去噪、平滑)。
想法很好,并且给出了优化问题的闭式解,实现过程很简单,论文提供的代码加上注释只有几十行,非常的通俗易懂。
卢策吾是贾佳亚的第二个博士,「二师兄」是卢策吾对自己在团队中的角色定位,只是他这个定位与真正的二师兄之间差了点距离,当时他体重不够。
贾佳亚对卢策吾的指导也的确尽心尽力。有一次卢策吾投顶会论文,在论文返修环节。因为评委的各种磨人要求,所有人都觉得希望渺茫。但是贾佳亚没有放弃,加班加点进行修改。
这其实与贾佳亚在研究上坚持的长期主义原则相关。在贾佳亚的世界,越是难以挑战的事情才越有进行的意义。
在贾佳亚的带领下,团队的凝聚力日益增强。
在学术上,贾佳亚是学生们的导师,生活上更像一个大哥哥 —— 本来年龄也相距不远。卢策吾记得,来港中文的第一周,贾佳亚就带大伙去爬了香港著名的远足径麦理浩径。
贾佳亚一边举起相机,一边吆喝着要求大家站好。卢策吾对这一举动感到有些震惊。「老师怎么屈尊给我们服务拍照」。
后面才知道,原来贾佳亚不仅是个对相片质感和构图十分在意的摄影迷,更是一个注重版权的「大艺术家」,实验室的学生