计算机视觉华人群星闪耀时:他们见证了 3D 视觉的崛起故事,也是故事的本身

港中文「1026 实验室」往事:贾佳亚与他的学生们

原创 郭思 陈彩娴 雷峰网 2023 年 07 月 20 日 18:18 广东

图片

“属于他们的黄金时代仍在继续。 ”

作者 | 郭思 陈彩娴

编辑 | 岑峰

那时他们觉得自己会永远生猛下去,未来也还给了他们一个黄金时代。

01 AI 大潮来临之前的先行者贾佳亚

2004 年,完全算不上人工智能发展史的大年,却是计算机视觉先行者贾佳亚和他带领的学生们开创的黄金时代的开端。他们起身、行走,以好奇心为导航,在人工智能的茫茫星野中进行无穷尽的探索。有时发现一些闪着光的宝贝,他们拾起,在行业中应用,然后继续行走。行者无疆。

故事开端是那年秋天,一个小伙子穿梭在香港新界沙田的林荫大道上,目的地是香港中文大学 (下文简称港中文)。

小伙子年仅 25 岁,刚从香港科技大学结束博士生涯,拿到一封微软原全球执行副总裁沈向洋的推荐信。他有两个选择,去美国如麻省理工这样的高校继续攻读博士后,或直接在香港高校任教职,但没想到香港中文大学直接给他发了 offer。于是他投身于这所学术界圣殿,开启了近 20 年的教职生涯,并持续至今。

这个小伙子便是独角兽企业思谋科技 SmartMore 创始人、董事长,香港中文大学终身教授贾佳亚。

图片

贾佳亚

早期「摄影” 器材” 发烧友」是贾佳亚身上一个显著的标签。

2000 年前后,数码单反相机刚出现时,一张图像只有 262 万像素,模糊、噪声大、颜色不艳丽。

贾佳亚常常盯着照片思考:「DSLR 本来就是数字化的数据,没有可能用先进计算机算法让数字相机拍出来的图像更漂亮?」

正是这一寻常的好奇,点燃了他选择研究计算机视觉最本真的初心,也成为了他终身的追求。

时间回退到 2000 年,贾佳亚从复旦大学本科毕业。恰逢国家教育部和香港科技大学保送计划选拔名额,排名前列的贾佳亚与刘江川(香港地区第一位微软学者,IEEE Fellow,加拿大院士)以及陶宇飞(ACM Fellow,现港中文任教)被保送至香港科技大学。

在香港科技大学读博期间,出于对图像的热爱,贾佳亚在「AI 黄埔军校」微软亚洲研究院最辉煌的时期做了许多相关研究,跟随时任研究院视觉组长的沈向洋在第一线深耕后,希望在该方向继续有所造诣。

早期,他主要研究数字相机摄像头相关的图像问题,如图像增强(去雾、去模糊、去噪声、增强)、图像平滑等。这个方向有个鲜明的标签 ——“计算机早期视觉”,相对小众,关注图像视觉成像部分。他也是该领域的早期领军人物。

贾佳亚的好友、学生不止一个场合提到,他是一个无比勤奋刻苦的人,哪怕大年初一都在 “肝” 论文。

2002 年 1 月 13 日晚,微软亚洲研究院灯火通明。这是中国传统节日大年初一,亦是 SIGGRAPH2002 截稿日的前几天,对于贾佳亚而言,这也是他连续五天通宵的日子。

在此之前,他与孙剑(生前为旷视科技首席科学家、旷视研究院院长)等人已经花了三个月准备 SIGGRAPH。

每天工作很久,从 10 个小时到后来 12-14 个小时。临近截稿,他们干劲反倒愈足,只是体力实在略感吃力。

「做高端研究的终极理解:它其实不是脑力活,而是体力活」。

在这之后的两三年内,贾佳亚的名字频频出现在 SIGGRAPH 会议上。他和孙剑等人也是首批可以投 SIGGRAPH 论文的华人学者。

待到 2004 年博士毕业时,贾佳亚的手里已经有两篇 SIGGRAPH,其中一篇他是一作,此外还有 2 篇 TPAMI、3 篇 CVPR。

CVPR、TPAMI 均是计算视觉的顶级学会,SIGGRAPH 更是拥有 40 多年历史的图形学顶级会议,SIGGRAPH 论文被誉为业界的魔鬼级论文,中标率只有 10%,对技术创新性上、写作表达、demo 展示等各个环节要求均十分严格。

严格程度可通过一个细节佐证。如果你上网搜索 SIGGRAPH,网上出现的攻略是《如何让你的论文被拒》。

科研硕果累累的贾佳亚,早已引起了港中文计算机系的注意。

2004 年,凭借出色的学术研究资历和导师沈向洋的极力推荐,贾佳亚被港中文迅速录取为助理教授。因为录取时间接近年尾,贾佳亚要到第二年才能正式招生。

于是他就自己单干了一年,其实这正合他意。

自开始做研究以来,他自己摸爬滚打,艰苦奋斗,养成了不喜欢求人的习惯。有时,他是一个喜欢自己在前沿研究无人区探索的「独行者」。

因为拉不下面子,所以开口向学校要科研经费,成了贾佳亚一大挑战。「那时候特别苦,经费也不多,自己探索的领域对外人而言很难明白」。

2005 年,贾佳亚正式开始招生,他意气风发,定下了一个颇有雄心的目标:

我要汇聚像我一样的研究人员,去跟美国名校的顶级学者和学生去竞争,我要证明,我们团队不输他们。

在清华计算机系的内部 BBS 上,贾佳亚丢出一道 SIGGRAPH 题目,并表示第一个做出来的人,就会成为他的麾下弟子。

题目一出,20 多个清华学子报名。

但年轻单纯的贾佳亚为了信守承诺,硬是只为「全力培养最好的研究人员」招了一人(其实答对题的同学都可以招进来),正式开始他的教职生涯。后话:这个学生就是熊伟 Wayne Xiong – 从贾佳亚那里毕业 10 年后作为第一作者和微软 Fellow 黄学东发表了一篇著名的论文(参见官宣:Microsoft researchers reach human parity in conversational speech recognition),宣布在计算机语音识别能力上用算法第一次超越了人的能力。此事按下不表。

此后,贾佳亚也陆陆续续招了好几个学生。

组建团队后,贾佳亚「严师」的名头开始打响。

早期发布 SIGGRAPH 的经历练就了他在写论文与做研究上的完美主义,亦拔高了他的眼界,在贾佳亚指导下,学生写的论文几乎都像艺术品一样,从语法到每一张图,都要反复雕琢。更为有趣的是,体力好,能打仗也成为了他对学生资质的要求之一。

「做研究还是得身体好。」

只是如此高的要求,使得贾佳亚在任教前五年,团队里没有博士生能顺利达到他以自己的画像为参照的要求,而难以拿到哲学博士(PhD)学位。他甚至一度觉得自己的要求是不是定得太高,这样下去学校对贾佳亚升任副教授要求的 —— 至少一个博士毕业 —— 就达不到了。

幸好世界这么大,不缺聪明而又身体好的学生。2007 年,徐立加入了贾佳亚团队。

02 一代严师和一群顽徒

在武林江湖上,一代宗师的背后,往往站有一群有能力的顽徒。这个定理同样适用在贾佳亚身上。

香港中文大学工程院依山而建,绿荫环绕,工程院顶楼有个计算机视觉实验室,贾佳亚的学生都在这个实验室,门牌号是 1026。

实验室人丁兴旺,传统良好,每天半夜都是灯火通明。研究生的习惯基本都是做科研到半夜,有时会议交稿期(deadline)来了,通宵也是常事。

实验室有一个供交流的圆桌。

徐立来了之后,逐步把它发展成为打三国杀的场地。研究做到半夜,通常会招呼大家一起打一局,前提是系里的教授都离开了办公室。那段时间里,贾佳亚往往是最后一个离开办公室的教授。

于是,年轻的学生往往被遣往侦察教授是不是离开了。这通常也是对新入学的师弟的考核:“学会如何侦察教授动向。”

入学不久,新生就能熟练掌握这项技能。

当然,凡事都有例外,有时大家已经开始了牌局,战斗正酣,忽然实验室门被打开,贾佳亚走了进来 (通常是走了之后又想起些什么再回来),七八个人面面相觑,动作石化。

“Leo,你来了。”

Leo 是贾佳亚的英文名。

体育界常常会形容某些球星自成体系,以此渲染他们的影响力,来到贾佳亚实验室后,徐立也很快形成了自己的影响力,只是没想到最先体现在带大家娱乐上。

徐立本硕毕业于上海交通大学,进入港中文时,贾佳亚已有了两年的指导经验,对招收优秀人才有了更多心得,例如他招生放宽了学历要求,但是对学生的综合能力提出了更高的要求。

图片

徐立

在这种标准下,研究能力强、能说会道、头脑灵活,极其聪明又自带自由主义气质的徐立,被贾佳亚一眼相中。

贾佳亚和徐立的性格并不相似,甚至可以说有点相反。

贾佳亚是一个完美主义者,他交给学生做的许多工作,看到学生做得不满意,给他们讲了几次都听不明白,或者学生对问题的理解没有达到他的深刻程度,贾佳亚就会自己接过来做,自己把问题解决。

贾佳亚审核论文非常认真负责。他还经常在觉得学生的论文实在差强人意之时拿来自己重写。有一次,贾佳亚住院大手术,醒了第一件事就是把马上要投稿的论文拿来一字一句的修改。他那时候不能忍受一句话中有明显的英语语法错误和不专业的问题。

当时贾佳亚的研究方向是 “computational photography”(计算影像学),聚焦在前期视觉产生过程,包括抠图(matting)、图像重建(reconstruction)、超分(super-resolution)等,其中去模糊(deblurring)是图像重建的一个重要方向。

图像去模糊顾名思义便是使得失真的图像恢复到它本来的模样。把一张模糊图片交给人类设计师,处理起来也相当费力。

因为图像的模糊有很多种可能性:镜头的缺陷、相机的抖动、场景的运动、景深的限制、后期的处理等等,需要先判断到底是哪里出问题了,此外还得对整个图片模糊程度以及周围布局进行预判。在没有深度学习以前,贾佳亚的处理方式是思考如何把变模糊的数学过程还原回来。这个问题被认为是传统图像处理大方向中皇冠上的明珠,2006 年前后都还是没有合适的解法,里面涉及的非线性优化问题尤为棘手。

类似的工作还有视频去噪声(denoising),就是把一个低解析度的图像或视频变成高清的视频,不是单纯的放大,而是使其看上去很自然。这一系列的工作并不是空中楼阁,而有实实在在的应用场景。当时贾佳亚在香港找了一些机构合作,这些技术会应用于修复老电影,还有香港警方的办案中,早期 Adobe 里的 PS 技术和一些手机内置的图像美化软件应用了贾佳亚团队的一系列算法。

彼时的贾佳亚像一个精通视觉算法工艺的匠人,对算法精雕细琢,然后进行图像的去模糊等工作,他也是图像去模糊、滤波、图像稀疏处理、多波段图像信号融合等领域的代表性人物。

总结而言,他所做的研究一直是在用计算机解决人眼看不到,看不清,看不细的事情。

值得一提的是,贾佳亚团队 2008 年发布在 SIGGRAPH 的 “High-quality Motion Deblurring from a Single Image” 是盲反卷积算法的经典文献,是现代图像处理的优化方法的基石之作,后来的很多高效算法都是对它的改进。再后来,徐立在此基础上发表了一系列的更有效,更快速,更先进的算法,彻底奠定了传统优化时代中,贾佳亚团队在此领域的绝对领先地位。

除此之外,在港中文任教期间,贾佳亚共发表了 200 多篇顶级论文,被引用超过 6 万次。其算法产品界面日调用量已超过 500 万次。

图片

香港中文大学贾佳亚研究成果资料展示

说回徐立,徐立第一篇论文是关于深度视觉的,他之前没有接触过这个领域。

徐立后面回忆道,“看过初稿后,贾佳亚不轻不淡地说了一句,「你能用人类能懂的语言写文章吗?」” 这句话一直成为之后师生之间的笑谈。

但徐立优于常人的点在于他一点就通,擅长举一反三。同时善于沟通,会与导师反馈自己的进展,及时调整方向。到徐立写第二篇、第三篇论文的时候,贾佳亚对他的干预就减少了。由于出色的学术表现,博士一年级徐立就获得 “微软学者” 的荣誉。

图片

徐立(右二)博士期间获微软学者

2009 到 2011 年期间,经常有行业的老师会拿徐立的文章作为上课的课件。因为他的文章代码不超过 100 行,本科生就能复现出来,但观点却很有开创性。

回顾徐立的学术生涯,成就可圈可点, 他三年完成博士学位,在视觉领域国际顶级会议、期刊上发表超过 50 篇论文,引用超过 13000;三个算法获得视觉开源平台 OpenCV(世界上最流行的计算机视觉库之一)收录,其中 L0 Smoothing 为图形学期刊 Transaction on Graphics (TOG) 五年论文引用之首 (2011-2015)。这些成果都是他在创业之前完成的。

每次顶会的 Deadline 来临时候,师弟师妹们都很紧张,徐立还是很淡定,因为他能承受压力时候理清楚优先级,规划好每个步骤。甚至能在晚上有空带着大家娱乐。

「我人生中第一次知道,原来打牌打得好也是高智商、能做好学问的一个重要证明」贾佳亚说。

而在贾佳亚的印象中,卢策吾是唯一一个不打牌的乖学生。

图片

卢策吾

只不过,贾佳亚对卢策吾的好印象来源于一个美好的误会。

在大师兄徐立带领实验室集体打牌的那次,贾佳亚推门而入,全部的学生都在打牌,只有卢策吾在电脑面前。实际上卢策吾只是恰好要去挂程序所以才叫大伙先开打。(到卢策吾毕业前,贾佳亚都觉得卢策吾不打牌)。

2009 年,卢策吾在中科院硕士毕业,他在微软亚洲研究院实习时就听过其在图像处理领域的大名和杰出成就,慕名申请贾佳亚的博士。

SIGGRAPH Asia 2011 引用最高的论文 “Image Smoothing via L0 Gradient Minimization” 便是由卢策吾与徐立共同完成的。

论文主要对图像平滑(改善图像质量的方法)进行了创新,以往一般的平滑方法是用一些平滑卷积核(比如高斯模糊核、均匀滤波等)滤波,模糊牺牲图像的的边缘,而这篇文章中提出一种基于梯度的平滑方法,在保留较大的梯度(图像边缘)同时去除较小的梯度(去噪、平滑)。

想法很好,并且给出了优化问题的闭式解,实现过程很简单,论文提供的代码加上注释只有几十行,非常的通俗易懂。

卢策吾是贾佳亚的第二个博士,「二师兄」是卢策吾对自己在团队中的角色定位,只是他这个定位与真正的二师兄之间差了点距离,当时他体重不够。

贾佳亚对卢策吾的指导也的确尽心尽力。有一次卢策吾投顶会论文,在论文返修环节。因为评委的各种磨人要求,所有人都觉得希望渺茫。但是贾佳亚没有放弃,加班加点进行修改。

这其实与贾佳亚在研究上坚持的长期主义原则相关。在贾佳亚的世界,越是难以挑战的事情才越有进行的意义。

在贾佳亚的带领下,团队的凝聚力日益增强。

在学术上,贾佳亚是学生们的导师,生活上更像一个大哥哥 —— 本来年龄也相距不远。卢策吾记得,来港中文的第一周,贾佳亚就带大伙去爬了香港著名的远足径麦理浩径。

贾佳亚一边举起相机,一边吆喝着要求大家站好。卢策吾对这一举动感到有些震惊。「老师怎么屈尊给我们服务拍照」。

后面才知道,原来贾佳亚不仅是个对相片质感和构图十分在意的摄影迷,更是一个注重版权的「大艺术家」,实验室的学生要写论文时,如果要用照片,就会去贾佳亚的个人网站上下载,贾佳亚一边笑着一边强调:「要注明版权,写明 “Leo’s photo”」。

「他是一个精神世界上很丰富的人,有很多自己的兴趣爱好」卢策吾说。

贾佳亚个人网站上有一个 “Photos” 的专栏,记载着他从 2003 年开始的生活随手拍、旅行见闻和与学生们的聚会、活动照片等等。其中生活随手拍、旅行见闻等照片已有了年头,没有再更新,只有和学生们聚会的照片会 “always updating”。照片中不少徐立、卢策吾、戴振龙、石建萍,以及沈小勇、刘枢、李睿宇和周超等人的身影。

贾佳亚的图片说明写得非常幽默,跟他治学严谨的人设呈现出一种 “反差萌”。例如在 2011 年 5 月一次和徐立、卢策吾、戴振龙等一群学生去户外活动的照片中,大家摆着夸张的姿势拍照,贾佳亚把这张照片命名为 “狂舞 —— 幸运的是没有观众”;

图片

狂舞 —— 幸运的是没有观众

2015 年 7 月,毕业季,贾佳亚和刘枢、周超、齐晓娟等人下馆子吃饭,大家拍照都摆出了标准笑容,而图片说明是 “告别晚宴 —— 眼泪在哪里?”。

图片

告别晚宴 —— 眼泪在哪里

如此看来,学生们的 “顽皮” 一定程度上也是师承。

除了一起出门游玩、吃烧烤、参加活动,贾佳亚也会与学生们聊人生谈想法,提倡个性发展,也会时时鼓励他们认清自己的目标,做正确而难的事情,从他实验室出去的人除了这批专攻视觉的顶尖人才外,还遍布各行各业,包括量化交易等领域。

2005 年贾佳亚招入的第一个学生熊伟毕业后去微软当工程师,期间没有从事视觉研究;但他持续在微软摸爬滚打,加入了微软语音团队,现在是微软云和 AI 团队的合伙人级别管理者(Partner Group Manager)。

2009 年到贾佳亚的团队的戴振龙现在在量化交易公司 WorldQuant 做研究,没有留在 AI 领域;同年加入的洪正浩是全球最顶尖 100 位编程大师之一,毕业后去了 Quora(美国知乎),之后去了 Robinhood(一家数据库公司),现在就职于谷歌。

2012 年加入的张祺(写出了只需要用一行代码的 “Rolling Guidance Filter” 在去移除和平滑图像中的复杂的小区域时,还能保证大区域物体边界的准确性,在图像处理领域具有划时代的意义)毕业后去了 Apple,2017 年又跟 Apple 的一群同事出来创业,做了一个 APP。

「我培养的学生不一定要做研究,可以继续科研,也可以去业界,可以做其他职业,也可以创业,只要他们喜欢、适合。研究思维应该是帮他们把路越走越宽,而不是越走越窄。」

除了师父带领的爬山活动,「大师兄」徐立带领的出海活动也很热闹,徐立为人大方,组织能力强,出海的时候,从租船到吃饭,他一个人能安排地明明白白,还会多次掏腰包给大伙请客。

在这样的氛围下,实验的同学们亲如一家,每天在一起十多个小时,笑声实时充斥着 1026。

他们觉得自己会永远生猛下去,什么也锤不了他们。

时至今日,那份恣意和热烈仍会使团队里的众人感到怀念。

03 「大师兄」徐立的抉择

提及徐立,他身上被人熟知的是他现在商汤 CEO 的身份。

徐立和商汤的故事发生在 2014 年。

彼时,深度学习刚刚兴起,徐立研究方向迅速结合深度学习。产业化的故事则发生在和汤晓鸥的一次饭局之后。

汤晓鸥也是香港中文大学教授,被称为全球人脸识别的 “开拓者” 和 “探路者”。

事后来看,当时的创业似乎是深度学习落地的必由之路。但在一切刚刚开始之际,徐立快速做了决策,加入创业的大军。汤晓鸥和徐立等一众联合创始人以香港科学园为创业基地,成立商汤科技。

这期间,香港 AI 科技产业发展势头却在悄然间发生了变化,2014 年深圳政府工作报告首提湾区经济,加强与香港的联系被提到前所未有的高度。2015 年,香港特区政府创新及科技局成立,旨在壮大香港创科人才库,推广本地科创产品和服务;同年 12 月,作为技术交流平台的香港科学院成立;特区政府设立了总额高达 3 亿港元的 “青年发展基金”,以助青年创业。

商汤正好站在风口之上。

在管理方面,读博期间形成的抽象归纳思维和对新事物、新行业的领悟力亦深刻的影响了他,他会用数学公式将其他公司商业模式全部拿来做一个聚类,再进一步抽象,最后再提出一个适用于商汤的函数,用于团队管理。

而听到徐立创业的贾佳亚,对此并不意外,对于自己的这个学生,贾佳亚一直都给予高度评价。

「有些人的光芒是藏在贝壳里也压不住的,徐立就是这种人」。

04 深度学习浪潮下的转变

时针回拨到 2012 年,贾佳亚迎来另一个得意门生沈小勇。彼时的他刚从浙江大学度过 8 年的本硕时间,在硕士导师刘利刚(图形学方向,与贾佳亚在微软研究院相识)的推荐下,来到贾佳亚门下。

图片

沈小勇

沈小勇是贾佳亚的第五个能毕业的博士,在此之前除了徐立、卢策吾外,还有石建萍、严琼。

当时实验室有三个主攻方向,图像的去模糊、图像逆波器以及图像对齐。

沈小勇主要负责图像对齐方向,“Cross-Field Joint Image Restoration via Scale Map” 是他博士期间发布的第一篇论文,这是一个校企合作项目,研究将多个摄像头的图像融合在一起,拍出更清晰的图像,也是在这个时期,贾佳亚团队逐渐跟高通、华为等企业有了合作,积累与企业打交道的经验。

彼时的实验室已经慢慢有了新的变化,狼人杀不再成为唯一的娱乐工具,顽徒们开始涉猎 CS 等网络游戏。不同的是,贾佳亚撞见后,只会默默把门关好,不多言语。

与这些细微变化一同发生的是团队研究方向的转变。2013 年,贾佳亚团队发布了第一篇深度学习论文。

2014 年、2015 年贾佳亚团队全面关注深度学习,团队里的每个人手上都有两三个关于深度学习的 idea 在做。

而真正让贾佳亚团队在深度学习图像研究领域的名声一炮而响的是一篇题为 “Pyramid Scene Parsing Network” 的论文。

2015 年,贾佳亚团队的石建萍毕业加入商汤,负责自动驾驶团队。

图片

石建萍

彼时的石建萍手里握着大量的计算资源,想参加 2016 年的 ImageNet 场景解析挑战赛,石建萍找到了贾佳亚实验室的齐晓娟,彼时齐晓娟正在多伦多进行实习,只得远程指导赵恒爽(刚进入贾佳亚实验室第二年的博士生)进行,贾佳亚和王晓刚(商汤科技联合创始人王晓刚)给予了非常关键性的指导。

最后,论文在 2016 年 ImageNet 场景解析挑战赛,PASCAL VOC 2012 基准测试和 Cityscapes 基准测试(当时最大的道路场景分割数据集)中均获得第一名,在 Google Scholar 上引用度高达 11120 次。

也是在这个时间点左右,贾佳亚团队在深度学习方向的研究已渐入佳境。

参赛橄榄枝再次抛向贾佳亚团队,只是这一次要打的 MS COCO (图像识别领域的权威标杆大赛)。

石建萍向贾佳亚要人,意向人是当时才来实验室不久的刘枢。

图片

刘枢参加胡润百富 U30 创业领袖颁奖典礼

刘枢本科毕业于华中科技大学,连续四年全系第一,2014 年 8 月来港中文读博,读博方向十分坚定 —— 深度学习。

面对这个邀请,刘枢面露难色,因为竞争对手太强。

2017 年的 MS COCO 比赛是有史以来含金量最高的一年比赛,因为那一年的参赛者有孙剑(彼时是微软亚研院首席研究员)、何恺明(凭借深度残差网络 ResNet-152,击败谷歌、英特尔、高通等业界团队的人工智能大神)、代季锋(谷歌学术统计获得了 20000 多次引用)、Ruslan Salakhutdinov(苹果首任 AI 总监)等计算机视觉的大牛,竞争十分激烈。

在贾佳亚的鼓励下,刘枢最终还是选择了接受挑战。

「失败就失败吧,无所谓,万一成功了呢?」

当时的刘枢带了一个还没有入学的师弟亓鲁,再加上刚开始在北大读硕士秦海芳,三个人组队(石建萍的参与不多),拿下了 COCO 实例分割(instance segmentation)任务的第一名。

这是 COCO 比赛最难的问题之一,因为需要分割每一个像素,判断这个像素属于哪一个类别哪一个实例。相对上一年的冠军,刘枢团队取得了 9.1 个点的提升,相对提升达 24%。后来刘枢追随老师贾佳亚创办思谋科技,在公司里常被同事戏称为 “CO 哥”,此乃后话。

听到这个消息时,贾佳亚很是高兴,问刘枢是怎么做到的。这是一个淡然的回答,「和师父你一样,熬。」

为了这次 COCO 比赛,刘枢团队连续 6 个月连轴转,周六日基本没有休息。有一天晚上,大家一起吃饭,还喝了点小酒,刘枢醉得不行,踉踉跄跄地走回实验室,把实验挂起来。

「晚上人可以睡觉,但机器不能停」。

2017 年他们在 MS COCO 挑战赛上的夺冠,实际上是贾佳亚团队转向深度学习后的一次标志性成果。

赢了比赛之后,贾佳亚口中的刘枢从一个不知事的毛头小子转变为能担大任的大将。

这名大将同样被当时已是商汤 CEO 的徐立盯上。

刘枢和徐立吃了一次饭,对于这个师兄,刘枢此前并没有打过多少交道,只是听过他两周赶出论文的壮举。

饭桌上,刘枢透露出自己对于找工作的迷茫。徐立便趁热打铁邀刘枢去商汤。刘枢只说自己考虑考虑。

最后刘枢婉拒了商汤的邀请。原因是他要跟随贾佳亚去另一个地方 —— 腾讯优图。

但刘枢其实并不是第一个跟贾佳亚去优图的学生,第一个是沈小勇。

沈小勇做事很有规划,十分理性,2017 年正值他找工作之际,他此前考虑过入教职,但受到徐立的影响,觉得自己也想去产业界试试。

彼时的他其实已经与华为诺亚方舟实验室谈了很久,第一想法就是去华为(因为他的爱人彼时在南京)。

但当听到贾佳亚对他说,要去腾讯创建一个 AI 实验室,问他要不要一起过去时,沈小勇心里的那壶感性之水突然到达沸点。

「我当然愿意!」

改变和影响人很不容易。贾佳亚有一种润物细无声的力量,悄然之间让人愿意跟随。

回忆起去腾讯优图的决定,沈小勇仍满眼星光。

「我相信他,也认可他。在跟随老师的过程中,我们确实得到了很好的成长,这是最重要的前提。一路过来,他始终在搭平台,让自己的学生不仅在学业上有很好的发展,也在事业上有更好的发展。Leo 原先对我非常关照,我们两也非常有默契,这让我相信我们未来一定会创造出好的成绩。」

就这样,除沈小勇、刘枢外,还有其他硕士博士六名团队主力跟着贾佳亚加入了腾讯优图。

1026 实验室的产业探索也由此正式迈出了第一步。

05 产业探索的第一步

在贾佳亚的感知里,计算机视觉直到 2015 年才真正开始火起来。紧接而来的是 2016 年国内 AI 创业潮。在亿欧发布的 2016 年 AI 企业 Top50 的榜单中,有 46% 是 2015 年或 2016 年成立。

那是科学家们纷纷 “下海” 进公司的年代。

2016,斯坦福大学人工智能实验室主任李飞飞和前 Snapchat 研究主管李佳加盟谷歌,孙剑加入 AI 视觉创业公司旷视科技;何恺明加入了 Facebook(Meta);先后任职于微软亚洲研究院和商汤科技的曹旭东创办了自动驾驶技术公司 Momenta…

「不想白白爱过人工智能」一度成为当时初创公司的口号。

也是在 2016 年左右,腾讯优图找到了贾佳亚。

彼时的腾讯内部已经有很多的 AI 团队。优图实验室在人脸识别领域也已多次在 MegaFace 、LFW 等国际人工智能的权威比赛中刷新世界纪录。

作为腾讯优图在人工智能布局的重要一子,腾讯许诺贾佳亚一进入便会是优图实验负责人,是 T5 级科学家,T5 级别在整个腾讯凤毛麟角,代表人物有中国黑客界 “TK 教主” 于旸、互联网行业漏洞挖掘之王吴石等。

贾佳亚在视觉研究上的耀眼履历自不必说,他的团队在比赛中多次夺冠,强大的技术与工程能力是贾佳亚的无法遮掩的光芒,而贾佳亚培养人才的能力则是腾讯尤为欣赏的地方。

彼时,除了已成为商汤主力军的徐立和石建萍外,贾佳亚实验室毕业的卢策吾 2015 年去了斯坦福大学李飞飞的实验室做博士后,归国后,在 2016 年成为了上海交通大学的正教授,也被视为中国人工智能领域最有潜力的研究新星之一。贾佳亚另有不少学生都在百度、腾讯、商汤等科技公司任职,除此之外,还有很多学生在高校任教授职务。团队开枝散叶,根系遍布整个中国计算机视觉界。

而当时贾佳亚选择腾讯优图的原因则是看中了腾讯优图能带给他的优势互补效应,优图在视觉的很多领域都能做到产品在各个场景和云平台落地。

「我的学生不仅要有很好的学术发展,也要闯出事业的一片天,我得为他们搭平台」。

为学生构建一个平台的想法久久盘踞于贾佳亚脑中。

「我希望能把第一线研究创新的基因在腾讯平台上强化和扩大。我的目标是在团队里提供给尖端视觉科学家和一流研究人员所需的研发环境。我希望这些技术能够产生论文,专利,放到产品里面,让用户看到这些产品,增强用户体验,丰富生活。」

希望、目标、尖端、一流,这些词汇交加在一起,彼时的贾佳亚无疑是「理想主义」的绝佳代名词。

开始产业探索之后,贾佳亚带领下的腾讯优图第一次出现在大众面前是一场别开生面的发布会。

2018 年 9 月,中国上海,首届计算机视觉峰会,贾佳亚一席西装出现在大众面前,主导了这场技术发布会。

在会上,贾佳亚意气风发,决心满满,他介绍了优图的「一个核心、四大方向、十个领域」,给出了具体到每个领域的大量案例。

在此之前,贾佳亚带领优图已蛰伏一年,2017 ,优图实验室在 ICCV(国际计算机视觉大会,计算机视觉顶级会议之一)上,共计入选 12 篇论文,居业界实验室前列,其中 3 篇被选做口头报告,该类论文仅占总投稿数的 2.1%(45/2143)。

不过与外界看到光鲜亮丽不同,贾佳亚团队刚去腾讯的时候其实很困难,第一没有团队,第二不清楚方向。贾佳亚用了将近半年的时间组建团队,在腾讯内部频繁 “刷脸” 帮同事解决五花八门的需求来推销自己的团队。工作强度也跟在实验室差不多,晚上 10 点左右下班,周六周日有时候也会去公司。

转折点发生在 2018 年 9 月 30 日。腾讯宣布组织架构调整,公司业务从 To C 全力转向 To B。

在组织架构调整前,腾讯优图的能力主要输出给 QQ、天天 P 图等腾讯内部产品;调整后,视觉 AI 能力拓展至赋能腾讯云业务以及外部的生态合作伙伴。

之前腾讯的很多 AI 团队都是各自为政,在优图实验室的助力下,腾讯的 AI 团队逐渐出现了一个多模态技术中台。贾佳亚团队业务涉及多个领域,如工业检测等。

在这个过程中,贾佳亚发现,这些高难度技术一旦形成,就会存在壁垒。在检测不同产品的瑕疵中,需要不断优化服务(类似 AutoML),所以他们就设计了一个自动化的算法构建流程,帮助客户解决问题。

优图实验室逐渐成为公司的核心技术落地团队,2019 年,腾讯 AI 业务相当部分都是优图在支撑。

对于贾佳亚来说,这是一次了不起的转身。

除了技术落地,技术本身的升华也未间断。

在贾佳亚的任职期间,优图实验室取得 700 多项全球专利,仅 CVPR(计算机视觉领域的全球顶级会议)就有 25 篇论文被收录。

他本人也获得了 2018 年 IEEE Fellow。IEEE Fellow(IEEE 会士)为学会最高等级会员,是 IEEE 授予成员的最高荣誉,是学术界和科技界公认的权威荣誉和重要职业成就。当选人数不超过 IEEE 当年会员总人数的 1‰,当选那年贾佳亚 39 岁。

图片

2001 年到 2017 年,IEEE Fellow 提名(上)和当选(下)人的年龄分布,无论是提名还是当选,都是 50~54 岁年龄段最多,而 31~39 岁的候选人被称为青年才俊可谓实至名归。

腾讯组织架构调整后,业务形态更加多样化,对于贾佳亚而言,他自身的成长也迎来了重要更新 —— 来自于一个液晶面板生产公司大单。

液晶面板生产工艺十分精密,涉及上百道工序。稍有差池,便可在生产过程中出现 120 种面板缺陷种类。高度依赖工序的优良和产品原材料的质量。而这千变万化的面板缺陷类似如果交给人工来识别,既难又十分低效。

但贾佳亚团队在刻苦攻关后设计的人工智能质检算法可以在 5 秒内识别出面板缺陷,减少六成质检人员。通过对面板不同缺损的分析,团队还帮工厂找到问题的源头,调整特定环节的生产工艺,提高良品率。

但就在此时,问题出现了,现实和理想之间往往存在差距。

贾佳亚手里面没有可以直接管理的销售、BD 和产品人员。如果不能直接优化前后端管理,研发离最后的落地应用和客户实在相隔甚远。一个负责人工智能的解决方案的销售需要达到的水平并不仅仅是会做 PPT,还需要懂技术,又要实时跟上产品的迭代速度。这些壁垒很难一时间突破,只能科学家教,这导致团队决策链路长、沟通成本高。

显示面板项目基本完成之后,贾佳亚渐渐萌生创业的想法,

虽有腾讯高层的极力挽留,他最终选择离开。彼时的贾佳亚 40 岁,不惑之年。

幸运的是,转变往往是新辉煌的开始。

06 未完待续的黄金时代

2019 年,香港出现暴力事件,港中文视觉实验室的同学想从香港回来,商汤包了车,把大家给拉回大陆,也包括贾佳亚在香港的学生。

贾佳亚感慨,「还是要有一番属于大家的事业和平台,才能把大家保护好。」

为学生搭平台的想法再次萌生。

也是在这个冬天,贾佳亚接受了来自 IDG 的牛奎光的投资建议。彼时牛奎光已经是 IDG 的资深合伙人,已经不看早期的创业项目。但是贾佳亚让他最后一次出山,做了思谋科技的天使投资人。

后来一个晚上贾佳亚拨通了一跨洋电话。电话那头是真格基金创始人徐小平,接到电话后,徐小平与贾佳亚畅聊了几个小时,随后,徐小平做了一个决定,也加入投资思谋科技的队伍中。

彼时的思谋科技刚刚成立,由贾佳亚带队,汇聚了沈小勇、周超、李睿宇和刘枢等多名学生。

办公室设在深圳三航科技大厦,只租了其中一个房间,装修时桌子都没有摆满。

2020 年 6 月,思谋科技宣布完成数千万美元 Pre-A 轮融资,由 IDG 资本领投,真格基金和联想创投跟投。

四个月后,思谋科技拿到了超 1 亿美元的 A 轮融资,新投资方包括红杉中国、松禾资本、基石资本、闻天下投资等。

如此快速的吸金速度引爆了创投圈。

思谋科技的办公室也逐渐扩大,从三航大厦的一个房间扩展至半层,再到一层、两三层,后来人员太多,只得搬到前海嘉里中心,现在办公室足足有三层半。

以往在面板生产的经验使贾佳亚有感于计算机视觉在工业生产优化上的神奇作用,在启动思谋科技时,他就确定了接下来的赛道:工业制造。

思谋一开始想做的事情介于 AI 与设备公司之间。对于贾佳亚团队而言,最容易的事情是将思谋变成一家 AI 公司,提供 SDK,但对工业里的客户来说,这远远不够,因为客户要的不是 SDK,而是能够运动的整体机器。

以区间检测为例,需要把手机从产线上拿起来,将其拍照成像,然后传送给算法检测表面的合格线,再放回产线,只有完整提供这些功能,才能够解决终端客户的完整需求。如果不能,只对接集成商,问题便会出现。另外,如果只做软件,也可能被替换掉,

所以思谋迅速转变思路,创新自己的商业模式,开始大刀阔斧进入机械电气光学领域做高端制造和检测设备。这种变化,像极了当时在研究领域争分夺秒赶论文提交的日期,也像极了为了追求科研竞赛第一的成绩,每天都在尝试新方法和新思路。

AI 设备公司这个赛道有实际的创收点,门槛很高,做得好做得踏实更难。仅从定位来看,其实已经敏锐的契合了当下智能制造时代的发展需求。

现在,思谋科技人才队伍已逐渐强大,团队中不仅有全球领军互联网企业的人才,还有来自传统制造业一线的全链条技术人才。

工业领域的大模型,是贾佳亚在思谋科技的新使命。就在 6 月底,思谋科技宣布行业首个工业大模型开发与应用底座 SMore LrMo 正式发布。

关于落地应用,思谋科技已主导完成多个大型智能制造项目,相关产品涵盖新能源、消费电子、汽车制造、精密光学、教育与科研等领域,合作伙伴遍及超两百家世界 500 强等国内外龙头企业。

贾佳亚本人的角色也在不断转换,完美完成了从科学家到科学型企业家,再到企业型科学家的转型。

学术上他荣誉加持,他自 2021 年起担任计算机领域顶会期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)的副主编,是该期刊创刊 43 年以来首位视觉领域华人副主编。他还是国际计算机视觉杂志(IJCV)的编委会成员。此外,贾佳亚还担任 CVPR 2021、AAAI 2021 和 ICCV 2021 等多个国际顶级人工智能会议的区域主席。

教育上他桃李满天下,自 2005 年招入第一个学生至今,贾佳亚团队中有 40 多名博士和研究员现在活跃在学术界和工业界,并已成为杰出的人工智能技术领导者,担任教授、主要研究实验室的主任以及多家成功初创公司的创始人。他现在还带领着超过三十个博士生的超大学术团队每天在科研第一线研发新的视觉语言大模型和其它 AI 技术。他创立的 DV Lab 每年发布超过 30 项成果,全部开源在线。

创业上,他始终迎难而上,思谋科技的整个光学成像系统,既能够感知到多光谱的图像,又能感知到非常细小的东西。在工业质检上,小样本学习的准确度已经远远超过人类,人做检测准确率可能只有 90%,但机器可以做到 99.99% 以上的准确率。

而当年在实验室玩闹、打牌的年轻人,到了如今,已经奔赴在各个赛道之上。腾讯优图之后,贾佳亚实验室的学生分散全球各个行业,他们一直带着对图像之美的追求,以更旺盛的斗志和多为行业创造更多的利益的目标继续自己的工作,永远行进着。

属于他们的黄金时代仍在继续。


计算机视觉华人史:权龙与他的学生们

原创 赖文昕 AI科技评论

图片

他们见证了 3D 视觉的崛起故事,也是故事的本身。

作者 | 赖文昕

编辑 | 陈彩娴

「简单,是终极的复杂。」

1 群星闪耀时

1988 年的冬天,一辆火车从法国出发、开往卢森堡。

火车上有一行四人,来自法国南锡,他们精神焕发,兴高采烈地讨论着即将开始的旅程。从南锡到到卢森堡,他们将在卢森堡乘坐飞机,飞往美国佛罗里达参加第二届国际计算机视觉大会 ICCV。

他们中,有唯一一位来自中国的东方面孔,内心尤为激动——这是他第一次去美国,也是他第一次参加国际上的顶级学术会议,有机会与来自世界各地的同行交流切磋。

这位意气风发的青年,就是后来中国计算机视觉大师、香港科技大学计算机视觉实验室的开拓者——权龙。

图片

那一年,权龙 24 岁。

与权龙一同出发的,还有他的博士导师 Roger Mohr、两位研究员 Karl Tombre 与 Gerald Masini。

深度学习浪潮兴起后,华人科学家逐渐成为计算机视觉三大顶会(ICCV、CVPR、ECCV)的参会主力,发表了大量的科研成果,并摘得各大重要奖项。但在上世纪 80 年代,ICCV 大会现场的华人面孔寥寥无几,直到 1988 年法国留学生权龙打破了局面。

1988 年,在法国国立洛林理工学院(INPL)、国家科学研究中心(CNRS)和国家信息与自动化研究所(INRIA)的共同实验室攻读计算机博士的中国学生权龙,在导师 Roger Mohr 的指导下,写了一篇从几何约束研究室内场景图像匹配的论文。

论文被刚刚诞生的 ICCV 接收,成为了实验室的第一篇视觉顶会论文,也标志着华人学者在这个视觉会议上的首次亮相。

1987 年第一届 ICCV 在英国伦敦成立,权龙的导师 Roger Mohr 参加了这个里程碑的会议,从会议现场带回来唯一一本 Proceeding 会议论文集。那时参会人员的「传统」就是必须带一本 Proceeding 回家去读。权龙对这本「孤本」非常珍惜,细心阅读,读完后写了两篇文章,其中一篇在实验室内部反馈很好,果不其然中了第二届 ICCV。

图片

论文地址:https://ieeexplore.ieee.org/document/590050

1988 年的美国之行,为了让大家不负此行,参加 ICCV 之余,Roger Mohr 还联系了各大高校,组织了一次全美知名实验室的游学之旅。权龙第一次参会,就感受到了计算机视觉领域最前沿的学术研讨氛围。

权龙在 1985 年从中国赴法留学。

这个成长于山西太原的中国青年,从小时候在少年宫美术组开始就一直对图像有着浓厚的兴趣。1980 年,权龙考上了北方交通大学(现北京交通大学)通信专业毕业,成绩优秀,在1984年毕业时考取教育部赴法留学研究生。

那时北方交大的信息科学研究所就聚集了一批热爱图像研究的学者,实验室规模庞大,在模式识别、图像理解乃至计算机图形学上均有涉猎。

权龙在本科毕业设计时就跟随时任所长袁保宗以及刚留法回国的周忠钰,后者带着权龙的本科毕业设计,给了权龙不少指导。

权龙出国留学也受到了他哥哥权全的影响。权全在 1978 年以优异成绩考入清华大学,几个月后就被教育部派遣到比利时本科留学,极可能是我国改革开放后山西太原出国留学第一人。因此,权龙很早对出国留学有所了解,并考取了 1984 年教育部的派遣留学研究生,成为当年北方交大出国留学的 8 名学生之一。

在法国,权龙结识了更早留法的马颂德(原中科院自动化研究所所长)、张正友(现腾讯首席科学家),三人并称为「法国华人视觉三剑客」,而他们在冥冥之中早有渊源:

在北方交大的最后一年,权龙跟随周忠钰做研究,向对方请教留法经验,后者研究图形学,是 1979 年与马颂德同批赴法的学生之一。

到 1987 年,权龙去法国的第二年,在法国国家信息与自动化研究所(INRIA)实习时又结识了同样通过教育部派遣留学的张正友。张正友先在南锡大学计算机系读硕,后又去法国巴黎第十一大学读博。

当时欧洲的人工智能已起步,教育发达,诞生在法国的 Prolog 作为「古早」人工智能语言正引领人工智能以及第五代计算机的发展,权龙去法国的第一志愿也是研究人工智能。

最早在国内接触「人工智能」这门课时,权龙有些失望,因为课程内容翻来覆去只涉及了一些搜索算法,并没有太多他所期待的「智能」。而到了法国后,法国的研究中心涵盖了语音、图像、逻辑、专家系统等多个研究方向,同办公室的两个法国同学甚至已经开始研究为今天的神经网络提供理论基础的「连接主义」。

在前沿的研究环境中,权龙顿时燃起了研究的热情。由于从小对图像与空间感兴趣,权龙决定研究图像理解,由此踏入了计算机视觉的大门。

权龙的导师 Roger Mohr 是法国射影几何与计算机视觉的研究先驱,从到法国的第一天起,权龙就跟着 Roger Mohr 做研究,一直到 2002 年离开法国,整整 16 年都是一个团队。1988 年权龙中 ICCV 论文,1989 年(在法国的第四年)就获得了 INPL 博士学位。

1990 年,权龙加入法国国家研究中心,在 INRIA 担任高级研究科学家。Roger Mohr 作为主要成员在 INRIA Grenoble(格勒诺布尔)开拓计算机视觉小组,权龙成为创始成员,也开始带领自己的学生,并见证了欧洲三维视觉的黄金时代。

1982 年大卫·马尔出版《视觉》一书,从 edge 研究视觉计算成为行业的主流。到 1990-2000 年,行业内出现变化,从 edge 转向研究几何问题,即「三维重建」。上世纪 90 年代,欧洲群英荟萃,欧盟有一个大项目(「欧盟研发框架计划」)聚集了一批研究不变量和几何的人才(主要来自 INRIA 、英国牛津大学、比利时鲁汶大学、瑞典皇家理工学院),成为三维视觉的研究圣地,而欧洲三维视觉的发源地又在法国。

权龙所在的 INRIA 一马当先。1992 年,INRIA 的一位研究员 Olivier Faugeras 发表论文「What Can be Seen in Three Dimensions with an Uncalibrated Stereo Rig」,试图用数学分析双目能让人感知到三维的原因。Oliver 提出「七点算法」,即:通过在非标定相机的两张图像中标出 7 个对应点,就可以计算出获得三维的基础矩阵。这个工作拉开了三维视觉研究的序幕。

三年后、1995 年,权龙发表的「六点算法」,又将三维重建向前推进了一大步。

在「六点算法」,权龙探索了三维重建的最小数据需求,得到「六个点、三幅图像」的方法论,不仅为三维重建的基础理论作出杰出贡献,之后几乎所有基于非标定相机的三维重建技术都受到了这一算法的启发。权龙由此声名大噪,成为三维重建的领军人物。

图片

论文地址:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=4fa70fb737a514afe8e902a9d8fd56f6cc3d6b60

在九十年代,计算机视觉领域最重要的成就之一是发展了一种三维视觉几何技术,即从非标定的图像(uncalibrated images)或运动结构(Structure from Motion)中进行三维重建。只要输入图像存在重叠,就能全自动地计算出所有相机的位置和方向,并重建场景的三维点。

图像的三维重建是计算机视觉、机器人学、摄影测量学和计算机图形学的基础,而三维视觉几何的整个体系建立在两视图、三视图和N视图几何这三个基本要素之上。

两视图几何问题,以基础矩阵(fundamental matrix)为特征,在 1992 年由 Olivier Faugeras 和 Richard Hartley 各自独立解决;三视图几何问题则是由权龙在 1994 年发表的论文《Invariants of Six Points and Projective Reconstruction from Three Uncalibrated Images》中得以解决。

两视图几何在使用七点算法启动计算时是基础性的,但它会导致对应关系歧义。与之相比,三视图几何在唯一性地表征投影结构和消除重建及对应关系歧义方面,既是最小的也是最完整的。

权龙引入的「六点算法」,以封闭形式解决了三视图几何问题,最多提供三个代数解。由于三视图之外没有其他独立的几何关系,三视图几何和两视图几何是多视图几何中唯二的基础几何,因此三视图的六点算法和两视图的七点算法也是图像三维重建中最基础的两个算法。

而由于 N 视图几何本质上是一个代数冗余系统,缺乏通用的代数解决方案,所以只能通过优化方法来解决。1992 年,在 Faugeras 和 Hartley 对两视图几何的代数分析同时,权龙及其同事创新性地提出了一种优化方法,采用空间中的规范投影基,首次实现了多视图的投影重建。

这篇《Relative Reconstruction from Multiple Uncalibrated Images》与 Faugeras 和 Hartley 同年在两视图几何方面的里程碑式研究齐名,其基础性贡献在学术界受到了高度认可。

权龙在三视图与 N 视图这两个关键领域的重要贡献,使他成为三维计算机视觉发展的主要推动者之一。在那个时期,权龙的贡献不仅限于此,还解决了其他视觉几何领域的诸多问题。

「六点算法」也是权龙与一众早期中国计算机视觉华人学者结缘的契机。

「六点算法」发表后,1995 年,权龙去美国波士顿参加 ICCV,在哈佛 David Mumford 实验室结识了当时读博的朱松纯。

1996 年,权龙在学术休假 (sabatical year)时到卡内基梅隆大学拜访 Takeo Kanade,结识了沈向洋。早期计算机视觉领域的华人很少,中国学者联系紧密,权龙与沈向洋的友谊也一直延续至今,乃至影响了下一代在港科大与 MSRA 的学子,这是后话。

从 1990 到 2000 年,三维视觉在欧洲的研究如火如荼。2001 年,Richard Hartley 和 Andrew Zisserman 出版多视几何理论教材《Multiple View Geometry in Computer Vision》,标志着三维视觉领域的基本理论框架确立。

这十年也是群星闪耀的十年,欧洲视觉圈涌现了一批后来名声如雷贯耳的学者人物,如 Oliver Faugeras、Richard Hartly、Andrew Zisserman、Luc Van Gool 等等,权龙作为其中少数的东方面孔,也独树一帜。

相比之下,三维重建在北美学术圈并不活跃,相关研究成果萧条,唯有彼时在通用电气公司研发中心的 Richard Hartley 发表了一系列非常有影响力的工作。实际上,Richard Hartley与牛津团队联系密切,因为他在通用电气的老板 Joe Mundy 曾在牛津学术休假,并与其团队合作过。

INRIA Grenoble 多次邀请 Richard Hartley 前往其实验室,与权龙他们讨论对三维重建的前沿探索,权龙也帮助Richard 在Grenoble 完成了他的著名八点算法。

直到 1999 年,David Lowe 提出著名的 SIFT 算法。

权龙后来告诉雷峰网,因为二人都在计算机视觉中从事感知分组的工作,他从读博开始就读过 David Lowe 的论文,直到现在还会偶尔翻阅 David Lowe 的文章,「David Lowe 写的东西都很深刻,他的成功不是突如其来的。他的成果在很多地方都能直接应用,比如 SIFT,visual features(视觉特征),是为几何而生、为做三维重建定义的。」

在法国,权龙还培养了两位得意门生:第一个博士生 Peter Sturm,他在三维重建奇异性(reconstruction singularity)方面做出了贡献,1998 年在权龙指导下完成的博士论文获得了法国第一个 SPECIF 奖(每年只颁给一篇法国计算机科学博士论文);另一个学生 Maxime Lhuillier,作为准密集方法(Quasi-dense approach)的开创者,也获得了国际模式识别大会(ICPR)的最佳学生奖。

与天才同行、求索三维视觉,充实了权龙的法兰西岁月。

2 港科大视觉第一人

2001 年,权龙作了一个重要的人生选择:结束 16 年「法漂」,回到中国香港。

促使权龙作出这一决定的,是时任香港科技大学计算机与工程系(CSE)的系主任钱大康。

港科大 CSE 成立于 1991 年,钱大康作为第一批教职人员在 1992 年加入。香港回归后,与大陆的联系加强,香港各高校开始招揽有大陆背景的科学家,香港科技大学(HKUST)新成立的计算机科学系也正积极招聘人员,在三维重建领域声名鹊起的权龙也进入了香港高校的视野中。

与权龙几乎是同时加入港科大计算机科学系的还有杨强,二人加入后,第二年另一位华人科学家倪明选担任 CSE 的系主任。权龙后来向雷峰网回忆,港科大的校领导「都很放手」。

于是,刚到港科大的第一年,权龙就带着积累多年的前沿计算机视觉知识,建立了港科大第一个计算机视觉实验室「 VisGraph」 。「VisGraph」 取「视觉(Vision)」和「图型学(Graphics)」两个含义,实验室坐落在九龙清水湾港科大教学楼的 4204 房间。

图片

VisGraph 实验室内部

在法国的 16 年,权龙教导出了 Peter Sturm 等三维视觉领域的青年佼佼者。回到港科大后,他几乎相当于从零开始,只有 Maxime Lhuillier 跟他来香港。大约一年后,Maxime 将准密集方法推进到了那个时期最佳的 3D 重建算法。

香港回归后,为了吸引内地学生来港深造就业,1998 年开始,香港各高校开始通过合作、委托内地 10 所高校代招内地生。

很快,权龙加入港科大的第一年,就从北京大学招了两名学生:危夷晨与曾钢。

权龙回忆,当时北大向权龙推荐了一批优秀的学生,权龙都很欣赏,但因为科研经费不多,不敢多招,所以只拿了 2 个名额,便同年招来了危夷晨与曾钢。

危夷晨原打算去美国,最后来到香港,算得上是第一批「吃螃蟹的人」。

危夷晨曾进过实验室实习,大概知道自己不喜欢数据库方向、而是偏爱图形学的课程。到港科大后,钱大康给了危夷晨一份导师名单,危夷晨一看,名单上的方向基本都是数据库、计算理论、网络等传统学科,唯一与图形相关的就是权龙的视觉组,于是就选了权龙,可谓「机缘巧合」。

权龙带领团队的风格是追求小而美,而非建一个规模特别大的组,所以权龙一年只招一个博士生。2001 年权龙招了危夷晨与曾钢后,第三个学生就从 2003 年才开始招,2003 年招了谭平,2004 年招了王井东,2005 年招了袁路,2006 年招了方天……

谭平与王井东是通过微软亚洲研究院(MSRA)来到权龙组。前文提到权龙与沈向洋在 CMU 相识、后成为密友,权龙回港科大发展时,沈向洋正在北京 MSRA,谭平与王井东都是通过沈向洋的推荐成为博士生,港科大 VisGraph 实验室与 MSRA 的羁绊也是由此展开。

谭平是湖南娄底涟源人,15 岁就考上了上海交通大学少年班,本科学的是数学,研究生后才转去人工智能领域,在上海交大的模式识别所学习,导师为杨杰。后来模式识别所与图像通讯所合并为了「图象处理与模式识别研究所」,杨杰担任所长。

2001 年,谭平在上交大听了一场沈向洋的讲座,彻底燃起对计算机视觉的热情与对 MSRA 的向往,就报名去 MSRA 实习。

在 MSRA 实习的四个月里,谭平跟着沈向洋研究计算机视觉,初步建立了对三维视觉研究的基本认知。谭平记得,当时 MSRA 的研究条件和上海较大有很大落差:上网不方便,没有数码相机、要去图像所排队借,想查最新的 PAMI 论文、但图书馆只有老的杂志,深感内地高校与海外的条件差距。

谭平觉得研究人工智能的终极目标是与机器人应用结合,所以他觉得计算机视觉的能力要求不能只停留在二维图像上,而是要有三维的感知能力才能实现机器人的移动、操作物体等,一直对三维视觉的研究很感兴趣。谭平很早读过权龙的六点算法论文,知道权龙曾留法、是当时全世界范围内三维视觉方向研究成果最出色的几个人之一。

图片

谭平

王井东原与危夷晨、曾钢同是 97 级本科,但由于在清华大学自动化系本科毕业后选择留校读研,师从导师张长水,所以 2004 年才到香港,比危夷晨等人晚了两、三年。

而比王井东晚一年来权龙组的袁路,也是与王井东几乎同一时间在 MSRA 实习的清华学生。袁路对计算机视觉研究十分痴迷,经常会抱着相机睡觉,权龙常说「研究计算机视觉就应该学习袁路」。

方天也是沈向洋推荐和共同培养的博士生。方天的本科就读于华南理工大学计算机系,是一名三维游戏爱好者,觉得「很美、很艺术」。在 MSRA 网络图形组实习时,方天就已经开始研究三维图形学,后来在沈向洋和王立峰的推荐下来了权龙组读博。

由于「精准招生」,权龙组的学生人数基本维持到四、五个学生左右,团队成员之间的关系十分紧密,又都是来自内地,所以常常聚在一起吃饭、讨论学术研究。

那时与权龙学生同一个实验室的还有傅红波。傅红波是危夷晨在北大的师弟,博士导师是权龙的同事戴秋兰,但研究的方向是图形学,因此与权龙组的合作也很多。傅红波很有亲和力,经常会在饭点走到 4204 的门口叫危夷晨、谭平等人去吃饭,氛围很融洽。

除了博士生,权龙团队还有一个格外出众的、来自大陆的硕士生,叫肖健雄,后来圈内人称「Professor X」、创立了自动驾驶明星公司 AutoX。

肖健雄是潮汕人,本科就读于港科大计算机系,性格大胆主动,由于喜欢三维视觉,本科阶段就自己跑去找权龙说想跟他学习三维视觉。因为肖健雄是本科生,一开始权龙没太在意,就让他去实验室找一个师兄合作,肖健雄就找到了谭平、王井东,参与他们的项目,还是本科生时就发了第一篇学术论文、而且中了 2007 ICCV oral。

ICCV 2007 在巴西里约热内卢举办,权龙带肖健雄去参会,出发当天,权龙远远就看到肖健雄提了一个橘红色的手提箱走来,给权龙留下了深刻的印象。权龙问他为什么选择颜色这么出众的箱子,肖健雄回答说是因为这样「easily recognizable(辨识度高)」。

肖健雄脑子聪明、反应也快。后来权龙竞选 2011 年 ICCV 大会主席时,竞争激烈,权龙与澳大利亚的 Richard Hartley 是呼声最高的人选之一,后面由于记票场面混乱,大会就在竞选会议室开了两个门、分别代表权龙与另一位竞选者,投票者从哪个门出去、就表示选谁,肖健雄做了很多参会者的工作,使权龙以几票之差险胜。

所以 2008 年肖健雄本科毕业后,权龙就把他招进了组里读 Mphil。肖健雄的本科与硕士论文都是关于三维重建与街景分析,硕士时期的成果还影响过谷歌无人车的研究(谷歌团队早期研究无人车是以谷歌街景为基础)。

肖健雄申请去美国读博时,权龙给他写推荐信,原先想写「He is a genius」(电影《美丽心灵》纳什推荐信的典故),后来委婉点改成了「outstanding」。拥有出色履历的肖健雄受到美国各大高校的哄抢,最后他选择了麻省理工学院(MIT)。

图片

肖健雄

3 从头发到地球

2012 年后,计算机视觉的风尚从卷积神经网络识别到视觉生成大模型,但 2012 年之前相当长的一段时间里,三维重建都是视觉研究的核心问题。此外,计算机视觉与图形学两个方向的交叉也很多,权龙领导 VisGraph 也不局限在 CV 的圈子里。

与「唯论文数量」的实验室风格不同,权龙从不要求学生追赶论文「死亡线」,也没有规定学生必须发表多少篇论文才能毕业。他的指导风格随和,给予学生极大的自由度,每个人都可以探索自己感兴趣的方向,所以危夷晨、谭平等人都觉得,在 4204 实验室很有安全感与归属感。

一群优秀的学生聚在一起,彼此之间也很容易形成竞相向上的拉力。谭平回忆,读博时实验室的师兄弟经常一起泡实验室,权龙每天都会来实验室与大家交流,权龙随时来、学生随时在。权龙会过问技术细节、与学生深入探讨问题,治学严谨、热情,常常感染实验室的同学。

谭平记得,权龙在课上做过一个实验,让谭平拿着两支铅笔、笔尖与笔尖触碰。这个过程中,如果谭平蒙上一只眼睛,只有一只眼睛校对,一开始笔尖与笔尖没对齐,就会发现之后再怎么对也对不上。权龙通过一个简单的实验,就让学生体会到,人是靠双目才有深度、立体的感觉,才能使笔尖与笔尖碰上。

当时整个实验室都被权龙点燃,对三维重建的研究热情高涨。

三维视觉的发展大约经过五个阶段:首先是理论阶段,方法是根据单张图片的光影变化将物体的三维形状恢复出来(即「shape from shading」,开创学者是 Bruce Horn);其次是双目或多目阶段,通过多相机从不同角度拍摄构建三维形状,代表有法国 INRIA,代表有 Richard Hartley、权龙等;接着是视觉 SLAM(指相机在运动时通过算法求出相机的三维姿态);最后是与图形学交叉结合,以及挑战动态场景(代表是 XR)。

权龙先前的代表作是六点算法,2000 年后三维重建领域出现了许多新的问题,如稀疏重建。稀疏重建是指从一组稀疏的三维点或特征中恢复出场景的三维结构,一般会先去求解相机位置,然后得到一个表示场景中关键特征点的稀疏点云,其中视觉 SLAM 是一个关键解法。

简单来说,视觉 SLAM 是一项用相机来收集数据点、并创建地图的技术,现已被广泛运用于无人机、扫地机器人以及苹果的「当红炸子鸡」Vision Pro 中。但在千禧年初始,这个方向并不受重视,研究者也寥寥无几,权龙团队是全球最早研究这一方向的团队之一。

作为最早吃螃蟹的人,彼时团队投稿 Visual SLAM 的论文常常被拒,直到 2007 年以后才开始有大量工作出现。谭平回忆,在自己进入实验室的很长一段时间里,权龙与师兄弟们都是在痛苦地「屡败屡战」。

早期物体的三维建模往往是通过在 3D Max 或 CAD 软件中手动拖拽完成,然而,现实世界的复杂性远远超出了这些软件的直观操作范围。即使是一盆花,用 3D Max 进行三维建模也非常痛苦。相比之下,从图像中提取三维信息则简化了物体的建模过程,同时还能保持物体的细节。

所以权龙也很早带领学生研究基于图像的三维建模,后来还开拓了 Image-Based X Modeling(简称 IBM)系列。

2005 年,港科大视觉实验室关于 IBM 的第一个工作发表在计算机图形学顶会 SIGGRAPH 上,建模对象是头发。2006 年,权龙团队又发表了围绕植物的建模,2007 年、2008 年、2009 年实验室的 IBM 工作也相继中了 SIGGRAPH,建模对象也从头发、植物升级到建筑、街道与城市。

图片
图片
图片
图片
图片
图片
图片

如今自动驾驶领域的高精地图,智慧城市的房屋与道路建模等技术成熟,许多工作就是从当时权龙团队的工作延续而来的。

危夷晨与曾钢最早加入研究中,危夷晨主要研究头发建模,后续也发表了数篇相关的文章,曾钢的重点则是与植物有关的建模。

谭平参与的项目最多,历经了从花、街道到整个城市复杂场景的三维建模。王井东擅长用图、半监督等方法处理图像分割问题,将在清华实验室习得的机器学习经验,迁移到以应用为重的项目中。而擅长写程序的方天是一位摄影发烧友,常给文章提供具有「艺术家审美」的建议。

深度学习风潮来临前,SIGGRAPH 是计算机图形学的独有的顶级会议,影响力极高,GPU就是诞生于图形学。而权龙团队的 IBM 系列均被 SIGGRAPH 接收,研究含金量可见一斑。

权龙对港科大视觉实验室学生的一大影响是对事物的执著追求。方天向雷峰网评价,权龙是一个非常纯粹的人,做研究会坚持一个方向。那时他们在港科大研究三维重建,虽然领域人迹罕至、论文屡遭碰壁,但权龙认为这个方向有价值,坚持探索,终成开路人。

谭平记得,读博时他们去参会,权龙在法国早期的学生都已经很成功,是学术圈有名的人物。权龙的地位也很高,但为人却很简单,希望学生去抓住一个最根本的点,将复杂的事情简单化,「有种大道至简的感觉。」方天形容。

有时权龙与学生讨论问题,会一开始提出 a 方案,实验室的学生不相信,总觉得可以搞 b、c、d 等等 N 种方案,结果兜兜转转一圈,发现 a 方案就是最简单的。「人生的许多事,无论是做生意、还是做科研,如果一个人的思想太复杂,就会充满各种各样的小技巧,变得十分疲惫。」

因为权龙,「简单是终极的复杂」不仅是一句印在苹果第一本产品宣传手册中的 Slogan,港科大视觉实验室内各人对简单、纯粹也有内心深处的体会。

4 一根藤上几朵花

重视产研结合是港科大视觉实验室的传统。得益于权龙与沈向洋、MSRA 的紧密联系,权龙的许多学生也在读博时期就加入了 MSRA 实习,成为北京与香港两地飞的「双城住民」。

读博时,危夷晨、曾钢、谭平、袁路都在 MSRA 实习过,而且是在不同的组,每个人有一位 mentor「靠山」:危夷晨是图形组的以色列老板 Eyal Ofek,曾钢是 Yasuyuki Matsushita,谭平是 Steve Lin,袁路是孙剑。

危夷晨被 SIGGRAPH 接收的头发建模论文就是 VisGraph 与 MSRA 团队合作的成果。

那时 MSRA 是大陆在 SIGGRAPH 的明星团队,沈向洋带着MSRA 横扫 SIGGRAPH。之后,MSRA 图形组每年都能中好几篇SIGGRAPH,孙剑也是在那时候成长起来。从 2003 年到 2006 年,孙剑每年都发两篇 SIGGRAPH。SIGGRAPH 的工作量很大,很讲团队合作,孙剑跟贾佳亚合作,也是在那时候与贾佳亚建立起了深厚的友谊。

2006 年博士毕业,危夷晨就直接加入了 MSRA 的视觉组。

危夷晨的代码写得不错,自我要求很高,一个趣事是,博士快毕业时,权龙让危夷晨整理出一份代码交接给师弟们学习。那套代码相当于 OpenCV 的外包渲染库,后续实验室的师弟们一直在用,后来权龙每次到 MSRA 都表扬危夷晨。

危夷晨在 MSRA 工作了 12 年,期间在物体检测、识别与姿态估计方向的许多工作是微软多个产品的基础,包括 Xbox Kinect,Windows Hello、Bing、Office、Hololens、Microsoft Cognitive Service 以及微软小冰等。其中,Xbox Kinect 一经推出就销量破千万,号称史上最成功的消费级电子产品。

2014 年,危夷晨等人在 CVPR 发表的每秒 3000 帧人脸关键点检测技术,也是第一个能够在 PC和手机上实时运行的全自由度手势跟踪系统,大幅提高了性能和精度,在业界影响巨大,启发了该领域后续一系列的工作。

在 MSRA,危夷晨也思考清楚了自己的发展方向:他更愿意做能落地的产品技术研发,而非单纯的科研。后来,孙剑离开 MSRA 加入旷视,危夷晨也在孙剑的邀请下于2018年加入了旷视、担任旷视上海研究院负责人。

谭平没有在 MSRA 全职工作过,但也以实习生的身份在 MSRA 实习了七年,研究生三年加博士四年。MSRA 为实习生提供免费的双人宿舍,宿舍在北航招待所一块,包吃包住。读博时,谭平每年基本都是几个月在北京、几个月在香港,因此自己调侃为「千年老 intern」。

谭平评价,MSRA 的实习是改变命运的经历,「当时和很优秀的研究人员一起合作,大家志同道合,合作写论文,一点都不觉得苦。第一次投 SIGGRAPH 时,截稿的最后一个星期我干脆就睡在桌子底下,完全不想回宿舍,就觉得还差一点点。」

王井东与危夷晨的经历相似,2007 年博士毕业后加入 MSRA 全职,一共在 MSRA 度过了 14 年后才离开。王井东在微软的日子大体可划分为两个七年:

在第一个七年中,王井东致力于计算机视觉技术在多媒体搜索中的应用。2007年,面对必应图像搜索的挑战,刚博士毕业的他被派去解决多媒体搜索中的图像检索难题,和团队一起开发了基于草图的图像检索技术,显著提升了搜索效率。

围绕图像搜索,王井东从应用转向基础关键算法研究,深入研究了近似最近邻算法(ANN),并设计了一种基于近邻图的 ANN 搜索算法,该算法在2014年被应用于必应的图像搜索和广告中,成为商业产品中的一个创新应用。

进入第二个七年,王井东的研究重点转向了深度学习。早在 2005 年,王井东在香港读博时便参与过卷积神经网络(CNN)车牌识别项目。而在微软,王井东开始探索深度学习算法在新应用中的潜力,并关注视觉网络架构的设计。

2015 年,他提出保持高分辨率表示的想法,并在 2018 年领导团队设计了 HRNet,该架构在 2019 年的 CVPR 上发布,迅速获得了学术界和工业界的广泛关注。HRNet 的设计突破了传统的分类架构,通过高中低分辨率的不断交互融合,保持了高分辨率的特征表示,适用于多种视觉任务。

直到 2021 年,王井东才离开微软,加入百度任计算机视觉首席科学家,为百度多条业务线提供视觉技术支持。

图片

权龙(左)与王井东(右)

袁路是在 2009 年博士毕业后进入 MSRA 视觉计算组工作,至今仍在微软供职,现在是微软云与 AI 认知服务研究部门的首席研究经理,参与研究多模态大模型。

在微软的十五年间,袁路主要钻研计算机视觉、图形学、计算摄影学和应用机器学习,多项研究成果被运用到微软的产品和应用中,包括微软 Pix 相机、OfficeLens、BLINK、Hyperlapse,其主持研究开发的「微软自拍」APP,主打智能美颜、低光照美化照片等功能,曾获得54个国家「最佳新APP」。

曾钢与谭平博士毕业后没有加入微软,而是首先进入了学术界:

2006 年毕业的曾钢先是去了苏黎世联邦理工学院从事助理研究员工作,现成为北大人工智能研究院的研究员与博士生导师。2007 年毕业的谭平先是去到新加坡国立大学电子与计算机工程系任助理教授,2014 年又转去加拿大。

拿到教职后,曾钢和谭平都向权龙请教过如何当一名「青椒(青年教师)」,权龙给了他们三个建议:好好上课,多拿经费,用心带学生。

5 更彻底的工业主义

2012 年后,深度学习崛起,计算机视觉成为一门显学,受到了资本的热情追捧。对着港科大视觉实验室在三维重建上的研究逐步深入,权龙也开始思考一个新的问题:如何将实验室的研究成果产业化?

港科大历来有产学研结合的传统,高秉强、李泽湘与甘洁组成的「铁三角」是港科大产学研的代表,例如,高秉强投资的安防 CIS 龙头思特威就在 2022 年成功上市。技术成果转化最直接彻底的方式无疑是创业。

权龙和学生们创业的契机可以追溯到 2012 年。

方天在他的博士研究中为一系列基于图像的建模工作做出了贡献。毕业后,方天继续留在实验室当博士后,当时无人机市场开始爆发,智能手机也越来越普及,作为一名摄影发烧友,方天也开始琢磨起用这些新设备拍照。

方天内心的想法是:怎么结合越来越好的数字图像拍摄硬件和自动化的三维重建技术让更多的人可以轻松重建三维模型制作三维内容。

这个想法与权龙一拍即合。而恰好方天在博士期间做了大量的工程开发为这个想法打下了基础。现在万事俱备,只欠东风。

2015 年,权龙就与方天还有别的博士生一起创立了 Altizure。

Altizure 开发了一个3D重建云平台,适用于来自相机、手机和无人机的所有图像,已成功应用于大规模 3D 建模。

同时,他们也开始制作城市级别的实景三维模型,为智慧城市和安防系统提供了基础,还进一步拓展了其技术的应用范围,为测绘和地理信息行业提供大规模数据处理服务。

权龙十分认可方天的想法,在他看来,三维重建技术的核心在于数据的获取。随着硬件设备的普及,智能手机、无人机与无人驾驶中的车载相机都配备了高质量的摄像头,能为三维重建提供了丰富的素材。消费级无人机的普及更是让自动化和大规模的数据收集成为可能。

2015 年 Altizure 成立,权龙与方天就同步推出了同名的核心产品。作为一个创新平台,Altizure 能够将无人机航拍照片转换成三维实景模型。在权龙和方天的规划中,Altizure 将利用无人机飞手的力量,逐步重建出整个地球的三维模型,形成一个众包的 Google Earth。

Altizure 一经发布,便深受无人机爱好者和专业用户的青睐。

起初,Altizure 只开放了网站这一个面向消费者的入口。随着技术的逐渐成熟,权龙和方天意识到,服务应更多地面向企业和政府,即 2B 和 2G 市场。

于是 Altizure 也开始制作城市级别的实景三维模型,为智慧城市和安防系统提供了基础,还进一步拓展了其技术的应用范围,为测绘和地理信息行业提供大规模数据处理服务。

由于出色的三维建模技术, Altizure 很快被国际大厂并购。

而在权龙与方天之后,VisGraph 的第二位创业者是肖健雄。

肖健雄 2009 年去 MIT 读博,隶属于知名的计算机科学与人工智能实验室(CSAIL),专注于大数据驱动的三维场景分析研究,博士期间获得了2012年 Google Research 的最佳论文奖。之后,他加入普林斯顿大学担任助理教授,研究如何将三维视觉应用在机器人领域,开拓了 RGB-D 场景分析和三维深度学习两项创新研究,在无人驾驶、Visual SLAM 和机器人控制等实际应用领域都展现出了巨大潜力。

自动驾驶兴起后,2016 年肖健雄就辞掉了教职、投身创业大潮,创立了自动驾驶技术公司 AutoX,专注在 L4。

继肖健雄之后,VisGraph 的第三位创业者是谭平。

2019 年,进入学术界 12 年后的谭平对工业界还是热情不灭,遂回国投身 AI 产业建设,但过程有些坎坷。

他先短暂加入 360 担任人工智能研究院副院长,与颜水成搭档。当时 360 有意研究自动驾驶,谭平擅长的三维视觉正是高精地图、导航、避障等问题所急需的。后来,360 终止了自动驾驶业务,团队将研究成果转化为了一款扫地机器人。扫地机器人产品上市后,谭平就离开了 360。

后在浅雪的邀请下,谭平加入了阿里人工智能实验室担任视觉首席科学家。

谭平专长 3D 视觉,这方面的人才在国内长期稀缺。当时阿里人工智能实验室的发展很好,有天猫精灵与自动驾驶等团队,谭平想研究 XR,浅雪也在规划相关产品,找到谭平,就加入了阿里。但没多久,公司组织结构调整,阿里人工智能实验室就被解散。之后谭平转去阿里云呆了一年半,21年又转去阿里达摩院担任 XR 实验室负责人。

在 XR 实验室,谭平希望打造一款面向消费者的MR眼镜,将元宇宙这一愿景打造成下一代互联网。在他设想的产品里,显示、交互都将从两维升级到三维。社交、电商、娱乐应用都会被彻底颠覆,用户可以直接沉浸式的和虚拟信息面对面交流。

巅峰时期,阿里的 XR 实验室有 200 多名研发人员,分散在北京、杭州、深圳乃至以色列。然而到了 2022 年,XR 热潮逐渐消退,阿里在 XR 方向的研发策略也有所调整,谭平领导的 XR 项目只做了一年就被紧急叫停,许多员工选择离开,谭平也于年中离职。

因为阿里的这段经历,谭平意识到,如果他想将 XR 技术落地,或许不如参考导师权龙的方式:在高校做产学研孵化。所以 2023 年,谭平加入了港科大任教,研究三维生成模型,又创立了 AI 科技公司光影焕像(Light Illusions)。

谭平在港科大的办公室就在曾经 VisGraph 的 4204 实验室楼下。谭平由此向雷峰网感叹,他在学术界与工业界之间多次兜转跳跃,「又回到了梦开始的地方」。

2021 年,危夷晨在旷视经历了三年多摸爬滚打的创业经历后,意识到需要深入扎根到具有重要价值的行业,需要将人工智能算法和工程、产品等专业更好地结合起来。他选择了医疗行业,加入了数坤科技任联席 CTO。

6 写在最后

创业公司被收购后,权龙每周都从清水湾往返于铜锣湾的办公室,每次通勤都要花一个小时,很辛苦。但权龙依然选择住在港科大附近。

港科大远离繁闹的市区,自封为「金牌导游」的权龙对校内每个能看到海和岛的景点了如指掌。闲暇之余,权龙还喜欢领着来港科大拜访他的学者、业界朋友们在校园里溜达。权龙的学生们谈到,他的身上总是流露着一种难以模仿的「松弛感」。

极具松弛感的权龙早早选择了三维视觉这条彼时人迹罕至的路「一路走到黑」,从太原、北京、法国到香港,从 ICCV 第一位中稿华人到 ICCV、CVPR 的大会主席。

值得一提的是,权龙更是迎接新 AI 时代前夕的大会主席:2011 年权龙担任 ICCV 大会主席,CNN(卷积神经网络)在下一年诞生;2023 年权龙成为 CVPR 大会主席,生成式 AI在下一年成为焦点。

这一切既是偶然,又是必然。

危夷晨、曾钢、谭平、王井东、袁路、方天、肖健雄、张宏辉、王婧璐,、朱思语、黎世伟、罗梓鑫、张润泽、镇明敏、周磊、申天纬、姚遥、张京阳、陈鸿凯、尚嘉祥等人从权龙的实验室走出,也从三维重建走向计算机视觉的多个方向,并肩同行、又散作满天星。二十年过去,他们成为中国三维视觉的代表人物。

对于三维视觉的探路者来说,他们历经统计学习、深度学习再到大模型时代,几起几落,但始终都在努力跟上时代的前沿,站在视觉的思维去思考眼前的美好世界。

比如,危夷晨告诉雷峰网,从港科大到 MSRA、旷视、数坤,他一直在尝试打破自己过去的认知和经验。谭平最近将 AGI 话语体系下的「世界模型」与机器人领域的「运动模型」结合起来,也有新的认知,常学常新。

4204实验室的故事已告一段落,但他们的篇章仍未完待续。

(雷峰网前编辑郭思对本文亦有贡献)


via:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值