上海交大AI研究院沈为：我相信奇点将至，但更信脚踏实地

沈为

上海交通大学人工智能研究院教授

博士生导师

曾任约翰霍普金斯大学计算机系助理研究教授。研究方向为计算机视觉、深度学习与医学影像处理，关注弱监督/无监督下图像分割等视觉识别任务。发表IEEE TPAMI、IEEE TIP、IEEE TMI、NeurIPS、CVPR等人工智能相关领域顶级期刊和会议50多篇，谷歌学术引用1万多次。担任NeurIPS 2023/2024、CVPR 2022/2023、ACCV 2022领域主席，担任SCI一区期刊Pattern Recognition编委、上海市计算机学会计算机视觉专委副主任。代表性工作获得MICCAI 2023青年科学家奖。国家优青，入选上海领军人才（海外）。

这两年，直播间有个极具生命力的梗，叫做“你这背景太假了”。仅抖音平台的相关衍生话题，就超过30亿播放量。每当主播的背景效果过于震撼、艳丽，就会被网友要求“自证”，比如光脚淌水、向身后扔矿泉水瓶等。

难分真假的吃瓜群众，之所以对自己的眼睛愈发不自信，深层原因在于计算机的“眼睛”越来越强大。随着图像分割算法不断优化，直播间、视频会议里的虚拟背景，已经可以和人物不露破绽的丝滑衔接，为工作、娱乐带去更多沉浸体验。

上海交通大学人工智能研究院教授沈为，就是该领域的耕耘者之一。

他曾在多项国家自然科学基金的项目研究中，建立起形状引导的图像分割计算机制和方法，为相关应用的发展提供了扎实的学术理论支撑。眼下，他正率领团队通过计算机视觉和深度学习，为医学影像行业赋能。

在沈为身上，你会看到一种有趣的“对立统一”：他清醒意识到现有AI基石——计算机“冯诺依曼体系”的局限性，认为“唯有底层技术革命，才能突破现有瓶颈”。同时又愿意脚踏实地，在现有框架下，朝计算机视觉领域的最高峰持续攀登。

半路入行找到“人生坐标”

三位恩师影响了我

专注、冷静、重理性思维，是学界人士的基本特质。但沈为与计算机视觉领域结缘，却源于一次原因不那么理性的“半路出家”。

沈为的本科专业是“信息与通信工程”，满怀期待的他却在入学后有所动摇。

“我的专业主要与信号、声波、频谱打交道，这些东西看不见摸不着。而我又是一个对画面感有期待和追求的人，小时候的很多兴趣和梦想都是源于一些有画面感的事物。”

为了做出改变，他以专业课中的“图像处理”为跳板，在读博期间转向计算机视觉领域。他的博士生副导师，华中科技大学教授白翔为他带去了很多积极影响。

巧合的是，白翔教授也是“半路出家”，并经历过一段非常艰难的转型过程。但这没有妨碍他成为人工智能行业、场景文字检测与识别技术的尖端人才。白翔教授相信“兴趣的力量”，并鼓励学生参加学术竞赛与实战项目，去接触应用场景中真实的数据、算法和系统，从而有效避免“闭门造车”，在研究具体问题时取得突破。

在白翔教授的推荐下，沈为前往微软亚洲研究院实习，并得到了微软亚洲研究院高级研究员、加州大学圣地亚哥大学教授屠卓文的指点和帮助。屠卓文教授的很多工作内容，都处于学界最前沿。同时他又是一位自己上手写代码，亲力亲为的导师。在他的引领下，沈为在计算机视觉和深度学习领域不断扩展视野，积累了丰富的经验。

两位恩师的言传身教，让沈为有了一个坚实的事业起点。

2014年，已经回国任教的他开始推动“基于深度学习的边缘检测”项目，为了赶论文进度一度达到废寝忘食的程度。功夫不负有心人，一年后，相关研究成果获得全球计算机视觉顶级会议CVPR的发表，并得到学术圈广泛关注和引用。

正是这篇论文，在一定程度上推动了边缘检测的跃进发展，通过深度学习让物体与物体间的边界、杂乱背景的噪声影响得到更强区分性，解决了虚拟背景等应用不够精细、穿模的问题。

几年后，已经在业内有所建树的沈为决定前往美国约翰斯·霍普金斯大学计算机科学系进行交流学习。也是这期间，他生命中第三位意义非凡的恩师出现了——著名物理学家史霍金的得意门生，计算机视觉学科奠基人之一的艾伦·尤尔。

艾伦·尤尔教授致力于推动人工智能与医疗影像方面的应用场景相结合，以此来辅助医生提高工作效率。

他较早预见到贝叶斯定理在计算机视觉领域的应用优势，并在“基于CT影像的早期胰腺癌诊断”项目中取得多项突破。沈为就曾参与到该项目中，并提出多项CT影像中胰腺肿瘤分割技术。

在三位老师的影响下，沈为从一个“被画面感所吸引”的学者，成长为计算机视觉与深度学习领域的技术专家，一步步找到了自己的“人生坐标”。

做“留在实验室的人”

用AI为医疗行业开扇窗

万卡集群时代的开启，让AI领域得到了不可思议的加速度。自动驾驶、ChatGPT、人形机器人、Sora、百模大战...热点频出的当下，越来越多科学家与学术大牛选择下场创业，或是开辟一些离热点更近的研究方向。

但沈为还是选择留在“实验室”里，他始终认为，热点不是用来追逐的，而是应该把热点中的价值导入自己的研究方向。

这种鲜明的长期主义特质，似乎也是从三位恩师身上传承而来。加入上海交通大学人工智能研究院以来，沈为的主要研究方向还是集中在“老本行”——图像分割与医学影像分析。

图像分割是帮助计算机理解图像信息、提取图像数据的关键一环。小到虚拟背景，大到工业制造、自动驾驶、人形机器人，都需要不断提高分割精度，才有可能完成最终落地。

沈为现阶段的主要工作，就是通过医学图像分割模型服务于医院等场景。比如，让搭载了AI算法的CT能够自主识别肺结节、肺结核、胰腺肿瘤，尤其是低对比度的病灶。在他看来，随着这些技术与硬件相结合，可以为医生提供一层“科技漏斗”，帮助医生过滤掉繁琐的工作内容，让他们有更多精力专注于诊断和施策。

在项目合作中沈为发现，医学图像的优质数据高度依赖医生的标注，但这势必会为他们的日常工作带去干扰。为此，他尝试通过技术创新，在弱监督环境下，实现与全监督环境相当的分割精度。同时在算法中导入医生的优秀经验，让AI能够物尽其用。他的部分研究成果已经在某医疗科技巨头的产品上成功落地，为医院带去了效率提升。

专注于本职工作的同时，沈为还积极与国家创新项目展开合作。目前，他参与了金山云和瑞金医院牵头的国家重点研发计划——虚拟手术。

“优秀主刀医生的短缺，已经成为全球范围的待解难题。相较于其它行业，医生的培养更加耗时。尤其是主刀医生，需要大量实践机会提升经验。但每个躺在手术台上的患者，都不希望自己成为‘小白鼠’。所以年轻医生只能通过假人、动物进行手术训练。”

虚拟手术项目的发起，就是希望构建一个还原度极高的仿真环境，通过医学影像的分割、手术场景的重建、三维器官的呈现，让医学院的学子们得到更多实操机会。

沈为能够参与到这一国家级项目中，与他的专注和长期主义息息相关。

2023年，沈为和团队的重磅研究成果“基于神经辐射场的内窥镜手术场景组织动态三维重建工作”，发表在医学影像处理顶级国际会议MICCAI上。并在2000多篇投稿论文的角逐中脱颖而出，斩获青年科学家奖，成为该奖项中的唯一华人团队。

相信他的学术成果，能够让虚拟手术项目加速落地，从而让年轻医生尽快成长起来，承接日益增加的手术量。在沈为看来，AI在医疗影像、虚拟手术上的应用，有望解决城乡医疗资源不均衡的瓶颈。

相信奇点将至

更信奉脚踏实地

未来学家雷蒙德·库兹韦尔曾在《奇点临近》一书中预测，未来某个时点，高度发达的机器智能将与人类文明相互融合，对现有文明、科技体系产生巨大变革，甚至帮助人类超越生物局限性，即所谓的“AI奇点论”。

在沈为看来，GPT、SORA的横空出世恰恰说明，未来会有更重磅的颠覆性科技突然涌现，且这个时点可能比多数人想象的还要近。但他更坚定认为，依托于冯·诺依曼底层原理的现有人工智能，无法通过扫描、存储、访问的模式产生媲美人类的机器智能，很多相关的阴谋论是杞人忧天。

“人类思维的运行机制，和现有人工智能模型有本质区别。我们的大脑能用不到一个电灯泡的低能耗，完成人工智能需要上万瓦能耗的任务。”

从沈为的叙事中不难推导，很多将AI与人类智商类比的说法都极不严谨。但这并不影响AI在特定领域为人类服务，只是需要市场参与者更加务实去扬长避短。

以计算机视觉为例，沈为认为行业最大的痛点是“计算机视觉系统的精度无法确保100%，所以很多场景下只能发挥辅助作用。”包括当下大火的Sora，他看好其在广告营销、游戏动画、虚拟人制作等方向的发挥。但这类模型也会长期受到物理规律认知不足、AI幻觉的影响，无法在严肃场景胜任。

沈为坦言，计算机视觉领域很难诞生GPT这样的通用模型。

“语言是人类创造的高度精炼的表达，每个单位都独立存在，具有离散性，更易生成通用模型。但自然界的图像却是连续的，所以具有通用智能的计算机视觉系统，至今没有被研发出来。在解决具体问题时，我们要根据应用场景去一个个打造垂直模型，未来的趋势也必然会从纯视觉转向多模态。”

即使知道计算机视觉的“先天不足”，沈为还是选择脚踏实地，用长期主义的研究态度去解决实际问题。他谈到，做研究只有才华和资源远远不够，还需要“头铁”。

“就像深度学习三巨头，1986年就有了研究雏形，但是受限于那个硬件不成熟的年代而沉寂许久，很多年后才等到GPU的爆发。可见，有巨大影响力的研究成果，都需要不计时间成本的强大意志力来支撑。”

虽然自己是个相信“坚持出奇迹”的学者，但他也鼓励国内有余力的团队、商业公司积极研究国外先进案例，至少能以跟随战略做到“不落后”。“GPT也好，Sora也罢，很难说未来会不会演变成卡脖子式的技术，所以应该对类似新物种保持敏感。”

这就是沈为，一个相信“奇点将至”，但更信奉脚踏实地的学者。

8月16-17日，沈为将在AiDD峰会北京站发表一次重要演讲，分享他在大模型参数高效微调 (PEFT)领域的最新观点和案例。在他看来，PEFT不仅可以在商业层面帮助企业降低成本、提高效率，还可以通过参数冻结解决灾难性遗忘问题，确保大模型能在执行新计划时保留原有知识。

相信沈为的思考，必将为大模型在应用场景落地，添上一把“干柴烈火”。

END

“AI+研发数字峰会（AiDD）”旨在帮助更多企业借助AI技术，使计算机能够更深入地认知现实世界，推动研发全面进入数智化时代。AiDD北京站即将于8月16-17日盛大启幕！本届峰会共设十四大分论坛，一个大厂专场，围绕“AIGC产品创新、AI原生应用开发、智能体与具身智能、AI驱动效能提升（含OA、PM）、LLM驱动需求工程、AI +微服务的实践与创新、超越代码生成、AIGCode质量提升、LLM驱动测试分析与设计、测试数据或测试代码生成、大模型训练与评测、LLM助力缺陷定位与修复、长文本 & 文档理解技术与实践、领域多模态大模型技术与实践”等技术热点，邀请近百家企业界和工业界大咖共赴盛会。