具身之上!“祛魅”后的“升维”,一场关于具身本体构型的讨论

点击下方卡片,关注“具身智能之心”公众号

作者丨具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

上周末一开局就注定不是一个平凡的周末,具身智能领域两位大佬不约而同提到了当下具身智能发展形态的看法。继而,领域一众观察者和研究员也加入了讨论,以下摘录他们的一些关注和讨论点,本文只做学术分享。

许华哲老师

清华大学交叉信息研究院助理教授,星海图联合创始人

1)具身智能要落地一定得有ImageNet时刻吗?

具身智能的”ImageNet”时刻是一个伪命题,至少是一个极具迷惑性的命题。ImageNet的妙处是采集了海量数据后,评测只需要把一部分图片预选出来,并且把他们的类别记录下来作为标签,不同人使用ImageNet的唯一的区别就是它用的模型的优劣,因此ImageNet成为了一个公认的竞技场。我们带着这样的拆解去看具身智能,就很容易发现“ImageNet时刻”的要求要高得多——除了提供的“ImageNet”以外,在不同用户处的其他部件应该一模一样。这意味着:

1)场景可复刻;

2)视角、光线等视觉条件一致;

3)机器人型号统一;

4)机器人跨本体一致。即使都是正午的太阳,纽约和上海也是不一样的,所以要做到前面这四件事,几乎不可能。在星海图,我们努力给大家一款稳定的本体;在斯坦福,有一个项目叫UMI企图对齐所有数据的形态。大家有没有想过,具身智能如果一定要有ImageNet时刻,其实不一定是一个数据集,而是一款本体?

具身智能是一个后发的领域,我们的上半场还没比完还在苦苦追寻ImageNet,但是已经有一个下半场比了半天的先知叫作LLM让我们看到了很多未来。所以我们仍然不清楚构建数据集的意义如何验证,又或者我们应该直接像语言模型一样到真实的场景、任务中的测试。在方法和模型还没完全摸清的时候,我们也去构造和收集大量数据,而且也不确定选用哪一款本体,好像过去和未来交织在一起。我们现在有了一点头绪,但也只是一点。

2)具身智能之上

智能的形态可能殊途同归,视觉、语言、机器人,从应用的角度各有各的难处,但是从智能的角度,他们很有可能在解决一样的问题。过去自然语言的人要去学语言学、视觉的人要去了解神经科学、机器人的学者则需要精通控制论。而现在,大家都在transformer加上海量数据。所以如果大家关心的是最终的答案,很有可能所有领域会同时被卡住或者被解决。

用更长远、更宏观的眼光看,如果你的野心在智能,无论你做具身智能、大模型、世界模型,又或者是神经科学,也许都一样的。

南方科技大学周博宇老师

械与能源工程系助理教授(副研究员),博士生导师

学科无需“称王”,科学本应共生

有观点认为,传统机器人学有相当一部分的研究重点在于“特别”的机器人或者“特别”的任务,这类“特殊任务研究”对科学虽然有用,但对具身智能发展无益。我认为这种观点显然不对。

首先具身智能非凌驾于科学体系的“终极形态”,也不该成为否定其他学科贡献的霸权标签。具身智能本身是跨学科产物,其发展必须依赖具体科学问题的突破。

通用性无法脱离具体性而存在

目前有些观点认为,只要通用智能做成,各种细分领域的问题也将迎刃而解。鼓吹“通用大脑优越论”时不要忘了:人类智能的通用性恰恰来自对具体问题的极致钻研。即便是人类自身,在掌握某项特定技能时,也必须经历反复锤炼,方能得心应手。把具身智能简化为全知全能“通用大脑”,就像要求建筑师只研究设计理论而不懂混凝土配比,最终建成的只能是空中楼阁。

技术迭代≠知识湮灭,沉淀才是真谛

在技术更迭的浪潮中,常存在一个认知误区:新范式必然完全覆盖旧体系。实则技术演进更像是地质沉积——蒸汽机虽已退出主流动力系统,但其核心技术仍为工业提供底层支持。这种沉积规律同样适用于智能领域。每个技术周期都在人类认知坐标系中留下坐标,这才是创新真正的复利效应。

AGI需要破除“技术救世主”幻觉“

具身智能是一个高度复杂的系统工程,它呼唤交叉学科的深度融合,依赖多个领域的协同进步。宏伟目标的实现,不可能寄希望于某几位“天才”横空出世,单枪匹马颠覆所有相关领域。通往AGI的道路,注定是一场集体智慧的远征。

具身是长期的事业,要长期主义的坚持

如果类比自动驾驶的发展阶段,我可能要给出一个相对悲观的判断:我们目前大概还处于“L0”水平:甚至连本体形态”都尚未收敛。

今天的具身智能,仍处于“边摸索边前行”的阶段,离真正意义上的成熟和落地,还有很长的路要走。

关于VLA(视觉-语言-动作)技术路径的思考

语言固然是一种高效的人机交互方式,也可支撑推理,但它的价值在于“如何用”,而不是“必须用”。当前很多 VLA 模型规模庞大,计算资源消耗高,与其实际能解决的问题相比,性价比并不理想。从长远看,这类模型大概率会被更轻量化、更高效的替代方案所取代。

技术演进的方向:短期与长期的平衡

短期内,我认为learning(学习)与model(建模)相结合 的路径更为现实。而从长期来看,纯learning的方法可能是终极方向,但其形式一定会与当前大相径庭。

那么为什么我愿意相信learning会成为长远未来的主流?设想如果我们能彻底理解人脑的工作机制,甚至创造出超越人脑的新架构,那我们就有望仅凭少量数据快速掌握多种技能,突破传统模块化系统的性能天花板,这是很符合自然的。但这不仅依赖于AI本身的发展,还需要脑科学、类脑计算等多学科的协同突破。“大力出奇迹”的scale-up模式,注定只能是通向未来的阶段性手段。

关于人形机器人的思考

我认为做人形机器人只有两个根本原因:第一,作为人类自身,我们希望未来的“同伴”拥有与我们相似的形态,这是一种自然的情感投射;第二,人类的生活环境是为人类设计的,因此人形机器人在适应这些环境方面具有天然优势。

目前社会对人形机器人投入了过多资源,其中不乏大量同质化、低水平重复的项目。这种趋势值得警惕,不应为了追求“酷炫”或“资本热点”,而忽视了技术本身的实用性与经济性。

关于技术壁垒

其实,这并不是一个专属于具身智能领域的问题,但我想强调的是:纯软件或算法层面的技术,往往难以构建真正意义上的高壁垒。表面上看,一个惊艳的模型或巧妙的算法可能令人眼前一亮,但如果缺乏长期工程化落地的经验积累、真实场景中的反复打磨,以及对细节极致追求的“脏活累活”,这种优势很容易被复制甚至超越。

真正有竞争力的技术壁垒,往往诞生于日积月累的实践之中——是成千上万次实验中踩过的坑,是产品迭代过程中优化到小数点后几位的坚持,是对材料、工艺、系统集成等多环节深度把控的结果。这些看似琐碎、不够“高大上”的工作,才是构建长期技术护城河的关键所在。换句话说,技术壁垒是干出来的

远见与实干的辩证法

科学研究既需要宏大的愿景,也需要脚踏实地的实践。具身智能正是这样一项兼具理想与现实挑战的事业。 科学探索从不分“高低贵贱”,真正的价值在于它是否拓展了人类能力的边界。作为机器人领域的从业者,我经常告诫自己,在仰望星空的同时,也要俯身耕耘,解决真实世界中的具体问题,推动社会进步。不要只停留在概念炒作和空谈之中,而是要用实际行动,让社会看到具身智能真正的潜力与价值。

最后,保持谦逊,保持开放,砥砺前行,或许才是具身智能走向成熟的真正标志。

小红书博主,问号

最近许华哲老师和Boyu周指导对具身智能路线的讨论引发了大家的热烈思考。本人也在两位老师的评论区略微贡献了一点想法,很荣幸获得了两位老师的点赞

我对具身智能的理解其实是这样:搞具身的人目前在具身智能的努力应该算是放大版robot learning,同时搞具身的人也期望这种robot learning在未来可以通过scaling law实现通用的现实世界agi。

大模型在nlp和cv领域的成功验证了the bitter lesson的正确论断:算力提升带来的scaling law会打败所有人为设计的先验知识。

但是the bitter lesson能否在具身智能领域延续这种成功呢? 我认为很难。llm的通用能力其实是得益于文本(以及图像)的符号完备性。文本的所有信息都可以作为符号被完备地记录下来,形成可供模型学习的data flow。因此通过提升算力可以使模型享受更多的data flow,从对符号的学习中获得关于这种符号的通用能力。

但是具身智能面对的现实世界是符号稀缺的:物体获得的重力,物体间的摩擦力,物体本身的物理属性,这些都是很难通过符号进行表达的信息。算力的提升很大可能也会对解决这些问题以及学习这些信息感到无能为力。

因此我很赞同周指导的观点。我们确实需要各种领域的共同发力,来帮助具身智能去做那些(可能永远)无法通过robot learning学会的东西。

知乎博主,夏染

格灵深瞳机器人与具身算法负责人

为什么说具身本体暂无定论!

近期,有几篇文章风靡具身和机器人工作者的朋友圈,其中不约而同提到了具身时代下需要的机器人构型的问题,周博宇老师提出了当前的时刻属于本体未定型的时刻,许华哲老师也讲具身的ImageNet时刻可能来源于一款稳定的构型,Pi的Chelsea Finn提到他们在向合作的硬件公司提供机器人的设计方案。刚好,前段时间围绕这个问题做了一番调研,由此结合我最近和几个朋友的探索,向大家分享一下对具身构型的一些观察和思考。

·    赵季老师(华科大博士,CMU博士后,前图森定位方向负责人),王雨浩(格灵深瞳、灵生科技具身算法实习生):串联的六轴构型有奇异点,做了逆解后操作速度速度提不上来,不知道七轴能优化多少,猜测七轴的构型也不是很好。有关人形左右的七轴构型可能也会有奇异点过多导致速度或者精度的问题,也会有肩关节自由度和其他冲突影响数据采集和逆解问题导致VLA不好部署的问题,理论上七轴应该可以更灵活具备更好的避障空间,但七轴的构型设计值得更多的讨论。

·    陈思翔(北京大学HMI实验室博士,智源研究院实习生):紧凑型的构型机械臂末段灵巧空间更大,而且适合遥操,非紧凑的构型甚至有些动作需要两只手控机械臂才能做出来,这种构型更方便操控

·    谭桦杰(北京大学HMI实验室硕士,智源研究院实习生):推测Pi的方向是简化构型验证跨任务的scaling laws,复杂的自由度有冲突会对同一任务下的采集的数据质量、控制算法的求解以及具身模型的算法收敛都有影响。具身的研究者需要对本体的设计有更强的把控力。Reflex的肩后置,推测可以更好的触达并利用胸前空间,但这种构型容易自碰撞。

·    李栋梁(格灵深瞳机械臂方向研究员):机械臂的发展从工业臂、协同臂到具身所需要的机械臂,这三种场景对机器人的需求是完全不一致的,工业臂要求更大的力量、速度与末端精度,但不需要很大很丰富的工作空间,协同臂要求更灵巧,更安全,对力量的要求更低,到了具身时代下,我们发现具身需要的臂更关注在比协同臂更灵巧的工作空间,比协同臂更大的力量,对末端精度的要求会有所放宽,更快的响应速度,让人更舒服的可操作性。是新的时代新的需求催生新的构型新的产品设计。

我们发现当前确实属于一个构型未定的时刻,手臂的构型还未和双足的曲膝设计一样进行充分的讨论。这种惊悚感受也来源于感受到太多初创与实验室在蒙着眼睛走路了,最终的具身也许是一脑多形的,但不是每一个产品都是对具身模型有贡献的也不是每个产品都能最终被选择的。能做出最好的模型的团队一定是对硬件sense也强的团队,一定是对机器人与具身敬畏的团队以及是开放开源系统性引导整个行业进步的团队。

其实有关传感器选型与排布,头部关节与腰膝关节也会有很多很多细节要考虑的。举个例子,格灵深瞳在22年做高铁与电网的巡检机器人设计时使用了不同款的RGBD相机,其中Realsense的D435i在低反光物体的深度效果很差,L515在室外光下几乎不可用,我们最终选择了Kinect的最新款相机,而这款相机已经停产了,奥比中光在售卖其替代款。格灵深瞳开源了商业级别的3D定位SLAM算法并为人形机器人做了适配,开源的考量很大一部分是看好新一代的机器人半球以及雷视一体的传感器,基于当前Livox mid360的算法将会被更新迭代,有关其他部分设计的例子还有很多很多。大家可以联系我多交流。

在后续的调研中,我感慨Pi是一个如柳树车库一样的厉害的组织,他们引领了这一波具身模型的迭代。但我又不解,为什么国内厂商在22-23年就在设计出来灵巧快速的直驱机械臂,是什么环境塑造了这样的团队,然后我找到了我猜测的一个答案。

未来将呈现机器人硬件的寒武纪大爆发,人们低估了运动控制中蕴含的智能

近期,Chelsea Finn,Physical Intelligence(PI)的联合创始人,现任斯坦福大学计算机科学与电子工程系副教授也在一期访谈中发表了她对未来具身本体形态的思考。

她在斯坦福大学期间开发的遥操作系统(teleoperation structure)在Mobile ALOHA机器人上的应用被认为是通用智能技术的里程碑之一。

以下内容为Chelsea Finn和自媒体创作者Elad Gil在No Priors播客节目上的对话实录,来源z potential公众号。

Chelsea Finn:我认为,如果有人想要创办一家机器人公司,我的主要建议是尽可能快速地学习,并迅速部署产品,在实践中学习并不断迭代。这可能是最重要的建议。尽快让机器人进入实际环境,从中汲取经验。

当然,我也不确定自己是否是给创业者提供建议的最佳人选,毕竟我自己才当了11个月的企业家。但这大概是我能给出的建议。

Elad Gil:这很棒啊!你在运营一家极具前景的初创公司,所以我认为你完全有资格为这个领域的创业者提供建议。最近我听说有一些团队在训练机器人模型时,会利用人类的观察数据作为训练集的一部分,比如从YouTube视频中提取信息,或者专门录制数据用于训练。你如何看待这种方法?

数据观察与数据生成

Chelsea Finn:我认为这些数据确实有很大的价值,但如果单纯依赖它们,可能难以走得太远。其实,这里可以做一些很有趣的类比。例如,如果你观看奥运会游泳比赛,即便你拥有和运动员相同的体能,仅仅通过观察他们的动作,你依然无法学会如何游泳。因为游泳不仅仅是力量的问题,而是需要练习如何控制自己的肌肉,才能完成那些动作。类似地,如果你想学会打网球,仅仅观看职业选手比赛并不能让你掌握技巧。

或许这些例子看起来有些夸张,因为它们涉及的是顶级运动员。但我之所以用这些比喻,是因为人类在运动控制方面已经是专家了,我们从婴儿时期起就不断训练自己的低阶运动能力,而机器人却完全不同。机器人需要从自身的物理体验中学习,而不仅仅是观察数据。因此,尽管观察数据可以帮助机器人扩展已有的经验,但它自身的实践数据才是不可或缺的。

Elad Gil:在这些案例中,数据的生成方式是怎样的?是机器人自己探索生成,还是人类引导它们完成某些动作?因为你刚才提到的“可迁移性”很有意思,哪些数据是具备可迁移性的,哪些不是呢?

Chelsea Finn:我们收集数据的方式有点像“操控木偶”。就像在 Aloha 研究中,我们记录了机器人执行任务时的所有数据,包括电机指令、传感器数据和摄像机图像,这些都是机器人的“体验”。

此外,自动化体验也会发挥重要作用。就像语言模型在初始训练后可以使用强化学习来自我优化一样,机器人模型也可以通过自主训练来增强自身能力。

至于哪些数据是可迁移的,哪些不是,这主要取决于数据的分布范围。但衡量这种“广度”其实并不容易。我们很难精确定义两个任务之间的差异,或者两座厨房环境的不同程度。但我们可以通过某些指标来粗略估计,比如数据涉及的建筑数量、场景的多样性等。

Elad Gil:我们刚才聊了很多关于人形机器人和其他形式的机器人。如果展望未来,你觉得最终会形成一个统一的机器人形态,还是会出现一个多元的生态系统,就像生物界那样?

未来机器人的形态

Chelsea Finn:我无法确定未来会是什么样,但我倾向于认为,未来的机器人世界将呈现出极其丰富的多样性。我的联合创始人Sergey曾形象地将其比作“机器人硬件的寒武纪大爆发”——一旦技术成熟,我们可能会看到各式各样的机器人形态。

我认为,这种情况就像我们日常生活中的厨房用具——我们不会只使用一台万能设备来完成所有烹饪任务,而是拥有各种专门的工具,比如搅拌机、咖啡机、烤面包机等。机器人也可能会朝着类似的方向发展。例如,在厨房里,可能会有一款专门设计用于烹饪的机械臂,配备针对该场景优化的硬件,同时成本也可以做到足够低廉。而在其他地方,比如折叠衣物、洗碗等任务,也可能会有专门的机器人设计。

当然,这只是我的个人推测,但我认为未来的机器人世界可能会与许多人当前的设想截然不同。

Elad Gil:在《钻石时代》这本书里,作者描绘了一种未来场景:每家每户都连接着“物质管道”,可以通过3D打印技术制造一切所需物品。某种程度上,这是一种进化导向的硬件生产方式——不断优化和选择功能最优的形态。你认为这样的未来是否可能实现?还是说,最终只需要少数几个强大的基础机器人形态,就能满足所有需求?

Chelsea Finn:我认为这样的未来是有可能的。而且,如果我们针对特定用途进行优化,我们确实可以制造出成本更低、效率更高的硬件。至于最终会是一个高度泛化的机器人形态,还是一个更加精细化、分工明确的机器人生态,这一点目前很难预测。

Elad Gil:的确,这个问题的答案非常难以确定。毕竟,从供应链的角度来看,硬件的种类越少,规模化生产的成本就会越低。因此,除非存在明显的成本优势,否则市场最终可能会倾向于较少的标准化硬件形态,因为它们更容易大规模制造、复制,并降低生产成本。

Chelsea Finn:确实如此。但也许,我们未来会有机器人来管理整个供应链,让它能够按需制造任何定制化设备。

Elad Gil:哈哈,那就是机器人“无处不在”的未来了。

参考

1、具身智能需要从ImageNet做起吗? - 许华哲Harry的文章 - 知乎

https://zhuanlan.zhihu.com/p/1906157729292219201

2、具身智能:一场需要谦逊与耐心的科学远征 - 周指导BoyuZhou的文章 - 知乎

https://zhuanlan.zhihu.com/p/1906835485990565345

3、http://xhslink.com/a/z7oJxkQpQEPcb

4、为什么说具身本体暂无定论! - 夏染的文章 - 知乎

https://zhuanlan.zhihu.com/p/1907422799246648973

5、https://mp.weixin.qq.com/s/d2XKV_BtTluxQwwIjJdu0A

更多讨论欢迎加入国内首个具身智能之心全栈技术平台:具身智能之心知识星球,和近300家具身公司和高校成员交流!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值