对话清华AIR赵昊:生成式仿真为具身智能释放无限灵感

本文讲述了清华大学智能产业研究院助理教授赵昊与学生在生成式仿真领域的研究成果,以及他们如何通过科研创新将AI应用于自动驾驶、具身智能等产业,讨论了AI在产业界释放价值的趋势和图灵奖的价值观。
摘要由CSDN通过智能技术生成

点击蓝字

050045f3be5bf4fff4faff758951b8ea.jpeg

关注 AI Time

AI TIME欢迎每一位AI爱好者的加入!

作者简介

赵昊

清华智能产业研究院(AIR)助理教授

沿着科研的创新方向,找到产业应用的具体路径,这是清华智能产业研究院(AIR)独特的属性。在这里,赵昊老师以及团队成员在三维场景理解上探索出许多“好玩”的科研项目。近期,赵昊老师与学生袁士然的SlimmeRF工作获得3DV 2024 Best Paper Award,这对他们正在推进的研究方向——生成式仿真,给予了非常大的鼓励。生成式仿真如何释放产业价值?AIGC如何更好得赋能自动驾驶、具身智能?带着这些问题,我们展开了对赵昊老师及团队学生的采访。

对话双方

  • 清华智能产业研究院(AIR)助理教授-赵昊

  • BV百度风投-轲迪、Han

b5a1a8d1eba42d635d4adc68c1fe8014.png

BV:首先恭喜赵老师刚获得了3DV的Best Paper。SlimmeRF是一个高质量的工作,同时这次您指导的学生也是非常有特点,要不要简单介绍下。

赵昊:这项工作实现了对神经渲染精度与速度的动态平衡,通过在训练中控制秩的增加,在各种计算资源限制的情况下,使模型适配不同应用场景。这是本实验室的一个典型成果,我们组现在主要的方向就是通过生成式AI赋能仿真,再进一步通过高性能的仿真技术加速自动驾驶、数字娱乐、具身智能等多个领域的发展。人工智能的发展需要高人才密度,这次的一作作者士然同学是天才少年,13岁上大学,我们在做这篇工作的时候他刚刚15岁。我挺期待未来他能获得图灵奖的。

69b7e45667c261d2f9cc041af3e71e1e.jpeg

3DV Best Paper Award

BV图灵奖?

赵昊:大家想过这个问题吗,计算机界最高奖项是图灵奖,为什么颁奖50多年来,AI方向获得图灵奖的比例不算太高?这是一件非常反直觉的事情,但拆开来看,也是图灵奖价值观的体现——致敬真正的产业变革影响力,而非仅仅是科学研究工作。比如Vint Cerf发明了互联网,姚先生解决了密码学中的重要问题,这些都是在科学领域有重大研究突破之后,还对产业界形成了巨大影响。

但AI,其实还是一门相对年轻的学科,具备国际化视野的青年学者大多也都还年轻,这也是很反直觉的。之前是纯学术研究,而我们现在正处于AI industry的时代,通过释放AI在产业界里面的价值,再过20、30年后肯定会有一波AI人拿到图灵奖。

BV这么一说,确实反直觉。连浏览器都是2016年才获得图灵奖的。

赵昊:是的。2019年,皮克斯创始人凭借图形学拿奖。他们是用图形学改变电影、动画、游戏行业的先行者。1988 年之后,隔了三十多年图形学第二次获得图灵奖,这就是因为大家感受到图形学已经在娱乐产业(Entertainment)的巨大影响力。为什么是图形学首先在产业界释放价值?这也是我加入AIR的原因:希望能把前沿学术和产业结合的更紧密,带领更多的同学在产业界释放价值。

a88f922ea2e97832f66e255bb804bd3a.gif

BV:说到这里,能否给大家介绍下AIR研究院?

赵昊:AIR是清华大学智能产业研究院的英文简称,发起人和院长是张亚勤院士。AIR的使命是利用人工智能技术赋能产业升级,通过大学与企业创新双引擎,突破人工智能核心技术,培养更多能和产业结合的人才。

BV:从我们投资机构的角度来看,产研结合是一件非常具有挑战的事情。比如说,大家会觉得图形学在过去的发展中,没有爆发特别多的产业价值。当然这也是过于低估游戏产业的一个结果。

赵昊:产业要依托巨大的市场,Entertainment就是一个巨大的市场。皮克斯的动画和漫威的电影特效就是图形学应用的杰出示例,我估计总累积票房超过五百亿美元了吧。在学术界的早期阶段,学者们评估了很多种不同的方法来重现物理世界,最终发现光线追踪技术是最为有效的手段。这一技术利用了小孔成像原理和光路可逆性的概念,通过计算每个像素所对应的视觉内容,精确模拟光线与物体的相互作用。光追不仅能创造逼真的影像,还能生成吸引人的视觉效果,正因如此,它在过去二十年里极大地丰富了人类的娱乐体验。通过影响了全世界的每一个观众,才诞生了2019年的图灵奖。你说的没有爆发特别多的产业价值,应该是在说非娱乐领域的产业价值。这也是我们考虑的点,如何将GenAI赋能仿真技术,再将生成式仿真技术赋能更多产业,汽车和自动驾驶是一个,机器人和具身智能是一个,娱乐与数字人是一个。

b52d0f1ecfd608bb9e886873a6b81055.png

BV:生成式仿真能同时赋能这么多产业么?直觉上来看自动驾驶、具身智能、数字人全是割裂的。

赵昊:这里面是有些定义不够清晰导致的误解。科研上来看,自动驾驶本身是具身智能的一个子集,具身智能的移动能力就是自动驾驶,而操作能力是一个单独的分支,所以肯定不是割裂的。市场上来看,因为具身智能的技术仍不成熟,实际上作为子集的自动驾驶产业远大于具身智能,生成式仿真的产业价值肯定会先爆发在公开道路的自动驾驶,因为汽车工业实在是太大了。而非公开道路的自动驾驶其实就更偏具身智能的,比如在这个场景下的汽车需要感知更多的行人与障碍物,与人和其他物体进行交互。汽车就是机器人,对吧。随着机器人感知技术、操作技术、交互能力的提升,具身智能产业会慢慢放大,生成式仿真在具身智能的产业价值会慢慢超过汽车工业。具身机器人最大的特点就是与人交互,这里面会用到更真实的渲染技术,自然会同时直接影响娱乐与数字人产业。

72a4579efb63b3f4579f3fe37c8ab57f.gif

Ultraman:生成让“人”这种复杂数字资产更加真实

BV:生成式仿真的产业价值是逐步爆发的,在不同产业爆发的时间点也不尽相同。刚刚您提到自动驾驶与汽车反而是生成式仿真目前最大的市场,但其实我们感觉仿真在自动驾驶领域的关注度并不高。

赵昊:因为在技术发展的历史中,有太多需要当下的关注和解决的问题。在2014、15年的时候,我们关注最多的反而是线控问题。在2016、17年的时候,场景理解算法成熟,大家会认为自动驾驶风潮来了,自动驾驶会在三年内实现。但后来发现,场景理解只是理论框架上成熟,但是没有办法找到很多优质数据。即使解决了数据问题,后面规控算法的技术栈也没成熟。就算感知、规控、技术栈成熟了以后,硬件供应链又有问题。很多自动驾驶行业的朋友经常被问到为什么自动驾驶说了这么多年,还没有实现?实际上这些年不管是学界和工业界都攻克了非常多不会被大家关注到的问题。

BV:之前仿真没有被关注,是历史阶段导致的?

赵昊:是的。偏科研的算法框架确定,依托业内大量优秀的工程师完成量产。前几年我们都在说数据闭环,然而第一步的产品验证量产走通后,数据的重要性才凸显,仿真的重要性才会随之提升。今年大家都在关注自动驾驶行业的几个主题,比如三域融合芯片、RoboTaxi多久可以落地、我们的车什么时候可以在所有地方实现辅助驾驶功能?这些问题都涉及到数据,自然而然就会涉及到仿真。当然,产业界热点类似纯布朗运动,有很多变量,但仿真的重要性肯定是越发凸显的。 

outside_default.png

ChatSim:前沿生成式自动驾驶仿真方案

BV:生成式AI是如何赋能仿真的?

赵昊:生成技术为仿真领域提供了两条重要的赋能路径:一是通过生成增强重建能力,二是在虚实融合技术中提升仿真质量。

在第一路径中,Gen-AI使得我们不再仅仅局限于传统重建方法。以往,对于一辆车的三维模型的构建被视为重建工作,但现在,借助生成式模型,我们可以创造出100个不同的车辆模型,从中选择与原型最为相似和真实的一个。这种方法不仅提高了重建工作的效率,也极大地丰富了可选择的模型范围,使重建工作进入一个全新的阶段。

在第二路径中,Gen-AI在虚实融合技术路线中扮演了提升质量的角色。通过不同维度的diffusion技术,我们能够针对特定的仿真问题提供解决方案。我们的AIGC团队细分为1D、2D、3D以及4D diffusion小组,分别负责运动轨迹的模拟、图像真实性的提升、三维内容资产的生成,以及解决仿真模型与物理世界一致性的问题。通过1D到4D的维度来赋能仿真,让传统仿真达到真实的水平。我们把之前SOTA的44.5降低到了10.5,这个在自动驾驶仿真中属于非常cutting-edge的突破。

7c118dd6e32d9d112930b1933e9b276e.png

SCP-Diff:生成让传统仿真更加真实

BV:目前是如何将科研与下游产业应用做结合的?

赵昊:首先,刚刚提到的所有应用都是在被基础神经渲染的科研所支撑的,就比如我们SA-GS 的工作是在验证神经渲染的快速进展,真实度逐渐提升。在中间层面,SCP-Diff的工作是通过生成式AI让传统仿真更加真实。在下游应用层面,Ultraman的工作是通过生成让“人”这种复杂数字资产更加真实。MARS和ChatSim都是前沿的生成式自动驾驶仿真方案,而P-mapnet是下游自动驾驶量产的案例。Pre-Afford是通过仿真让具身系统更加智能。总的来说,Neural Rendering is growing Fast, more and more Realistic。

BV:不同产业的差异化挺大的,如何选择精力分配的优先级?

赵昊:平衡技术与产业发展很重要。玩游戏的朋友都知道光追,光线追踪的方法进行物体重建有一个巨大的缺点,即无法实现逆渲染,也就是无法从图片中还原一个三维世界,所以以前仿真多用于Entertainment行业。2020年,体渲染结合NeRF产生的神经渲染被重新提出来,解决了基于图像渲染的视图合成问题,这是一个重大的新突破。2023年,3DGS也是一个重大变量。这些变量会导致仿真可以用于除Entertainment以外的行业,比如真正对工业界(Industry)产生影响,生成式仿真才成为当下应该被关注的问题。

31781252f7388df5a55237e6d223ae87.gif

SA-GS:让神经渲染在快速进展,越来越真实

我们可以从Meta和Nvidia两家公司的发展看出一些线索,2020年左右,Meta一开始主推偏Entertainment的应用,而Nvidia在推Omniverse去做Industry的应用。而现在Meta调整了方向,但是Nvidia仍在继续推进Industry领域,今年也发布了GR00T等具身智能的新场景。

在Entertainment中,我们只需要用10分的技术和剩下的90分的产品能力(这里,非常需要一个大艺术家/产品经理的角色,去挖掘技术带给产品的价值)去实现100分的价值。但在工业界中,我们用50分的技术和50分的产品才能产生100分的价值。这里的区别是,在工业领域更看重的是技术本质带来的真实价值。所以我们在引导学生的时候,首先会告诉他们不同产业的区别,根据他们的兴趣让他们自己做出选择。

BV:从基础渲染技术到生成式仿真器的赋能我是可以理解的,但是在具身智能的领域,Sim2Real的差距还是挺大的吧。

赵昊:在传统的具身仿真到现实(sim2real)方法中,如NVIDIA原来所采用的策略,通常需要对物体和场景进行详细的三维重建。这个过程不仅需要艺术家投入大量的工作来建模,而且最终渲染出的结果往往还存在一定的sim2real 差距,这限制了其在某些应用场景中的效果和效率。相比之下,采用NeRF和GS的方法来重建仿真场景,可以显著降低对艺术家建模的依赖。因为直接从真实世界的传感器数据中学习,生成的场景与现实世界的差异极小,实际上消除了传统sim2real方法中常见的差距。世界不是非黑即白,路线并非只有一种,这是我的个人科学观点。今年CVPR NVIDIA的一篇工作中,用渲染数据把具身智能中的位姿估计问题从50%提到了80%,这是一个巨大的进展。

BV:如果这么看,您的学生未来会活跃在不同的领域中了。

赵昊:是的,他们可以自己介绍一下目前的工作。

武子睿(同学):我目前在香港科技大学(广州)读博一,本科期间在AIR跟赵昊老师实习,一起做MARS项目,把动态的车建模出来。沿着这条线我找到了自己的方向,目前是延续之前的工作,研究方向主要围绕动态场景重建&仿真、3DGS、NeRF,做自动驾驶或者更泛化的视频场景重建和动态建模。当时MARS这个项目是我们团队作战,赵老师指导,我们几个核心成员带领几位实习生一起做出这个项目。

ba82e208bac9a2f3064e65a69d4e55b3.gif

MARS:自动驾驶视频场景重建

高焕昂(同学)我是清华计算机系的大四学生,今年9月会入学AIR读博一。截止到现在我跟着赵老师做了很多工作,比较有代表性的是半监督的房屋边框估计和三维目标检测。最近,我们探究了怎么更加有效地利用2D扩散模型做语义图像合成,产生的道路场景合成图片的质量处于世界领先。

袁士然(同学):在AIR的第一项工作是去年的SlimmeRF。刚进AIR时,对3D建模完全没有基础,过去更多是做数学方面张量补全的工作。赵昊老师帮我介绍NeRF,我跟着他边学边做,完成了SlimmeRF项目。这个之后,我们探索的方向就更广了,开始了positive unlabeled learning的工作,在只有正面样本和没有标注的样本的情况下如何进行学习。未来也会继续探索3D视觉基础模型这个方向。

BV是什么吸引到位同学加入AIR和赵老师的

武子睿(同学)赵老师是一位能快速给到反馈的老师。我们的项目都是跟产业紧密结合,很容易钻牛角尖,把精力花在没有实际意义的方向上。如果能得到老师很快速的反馈,我们就能迅速调整思路、及时止损,也就知道下一步要做什么了。他经常跟我们说的一句话就是:肯定能中!简单4个字,很快能帮我们打破内耗。

高焕昂(同学):最吸引我的是跟产业界的紧密结合。不闻窗外事、灌水的实验室,就不在我的选项范围里。昊哥对我们的支持也不能忽视(我们都叫他“昊哥”)。他的方式是自己先到行业内交流,把业界需要什么告诉大家,再一起设计具体的技术路线,把这些路线上的课题模块化,交给我们来做。我目前还是本科生,对商业世界没有很多的连接,昊哥能作为我这方面的知识来源,帮我们及时补充科技圈以及商业视角上很多信息。在学术生涯早期,很需要这样的前辈。还想说的是,既然大家选择做研究,就做有产业需要的课题,这也让自己的青春更有成就感。

袁士然(同学):我个人的体感,AIR像是一个Think Tank,它不是一个公司,但定位又在纯粹学术属性和公司属性之间。赵老师个人我想到两个词,hands-on和勤奋。会非常扣一些问题的细节,但是又能跳脱出来,对我的工作有极强的方向上的指导。他的眼界非常广,能提出像是3D视觉中有价值的方向,这是他非常特别的地方。因为我目前还是本科生,时间上也不太适合团队一起,更多是一个人做科研。赵老师会根据我的情况来做学术规划,会给我提大方向,让我在里面做独立的探索。

BV非常巧的一件事,您是极越01的车主,买车时是怎么做的选择的?

赵昊:哈哈,听着有点像软广。不过在买车这件事上,我是纯理性消费者,目前选择的是一辆红色的极越01。我的选车考虑要素大概有五项:智舱、智驾、续航、空间和外形。这款车我个人觉得是赚到了,智舱性能特别好,智驾性能也是第一梯队的,空间也足够大,外形对我来说也足够酷。我当时看了BYD、理想、小鹏等等,结合了我个人的特点最后选择了极越01。他们(学生们)坐我车的时候也会说这辆车很“好玩”,经常在车上打游戏。

5ac310687b352138f1be9306a32db6ab.jpeg

BV:拥有自动驾驶探索者和车主双重身份,赵老师要不要分享下Apollo智驾的体验?

赵昊:前段时间去参加极越车主见面会,就听到了王亮老师(百度智能驾驶事业群组首席研发架构师)关于“BEV+Transformer+OCC”的纯视觉方案的分享。我们平时听到的前沿算法落地成摸得着的产品是令人激动的。从体验来讲,可以用用几个实际例子说明一下。

“无保护左转”也是考验系统综合能力的典型场景,大部分车企没有这个功能。在能量产这个功能的车企中,我去试驾的时发现他们把这个功能关了,但极越的有保护左转和无保护左转都做的很好,这部分属于炫技了。

产品细节上来看,比如“自动开出”功能,以前开车门的时候经常碰到周围物体,刮蹭到车,但“自动开出”这个功能让车自己开出来,我就不需要担心开车门蹭到旁边的情况。再比如自动泊车功能,让我在泊车的这短短几分钟的空档内可以及时回复重要的信息。这些设计都切中痛点,很大程度上彻底改变了我的行为习惯。

同时,PPA(点到点领航辅助驾驶)在北京覆盖还是非常广的,我的主要驾驶区域恰好都在试点区内,所以感受很好,基本上实现了接近L3的驾驶体验。国斌(百度副总裁)在见面会的时候也说了,只要百度地图导航能到的地方,PPA智驾就能用,我还蛮期待的。

BV:感谢赵老师今天的时间,期待您下周的线上分享。

赵昊:好!


信息密度太大,还有更多问题?

别急,4月16日,下周二晚19点,由清华AIR助理教授赵昊和知乎深度学习优秀答主、沃尔沃Zenseact资深算法专家刘斯坦带来的直播对话活动为你展开聊聊生成仿真的更多产业启发。

968fc76eaba31d7e1a499237dd846211.jpeg

往期精彩文章推荐

0565bee820ff4ef796fc80a4cbcf6372.jpeg

AI TIME 微信小助手

添加 AI TIME小助手

回复“具身智能”,进入本期群聊!

c3ff09ff13bb5e8de211720d22df2f7c.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

e00bf04ce8adfe49755ecc808b9e0f98.png

我知道你

在看

~

9b9584e46d014d9dc3c21ec5a86b9701.gif

点击 阅读原文 报名活动!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值