宇树科技成立于2016年,最开始是从做四足机器狗起家,从2023年开始入局人形机器人。在此之前,宇树科技创始人兼CEO王兴兴其实并不怎么看好人形机器人赛道。那么,是什么原因让王兴兴改变了他对这个赛道的看法呢?王兴兴曾在接受媒体采访时把其中的原因归结于以下三方面的因素:
1)社会关注度的上升 —— 特斯拉在这方面的布局使得人形机器人的关注度得到空前的提升;
2)技术的推动 —— 生成式人工智能技术的成熟,让他看到了AI赋能机器人发展的潜力;
3)市场的期待 —— 当时,不少客户开始咨询宇树科技是否做人形机器人,市场对于宇树科技做人形机器人的期待和购买欲望在增强。
宇树科技能够成为当今具身智能机器人赛道的明星企业,到底有何秘诀呢?为了探寻宇树科技成功背后的关键因素,笔者查阅了近一两年王兴兴接受媒体采访、出席演讲以及参与圆桌论坛时的相关发言内容,期望能够从这位创始人的见解与经历中,挖掘出有价值的内容与线索 。
本文共梳理出了8个关键要点,希望能够给大家带来一些启发。
1)推动人形机器人再次向前跨越的关键 —— AI技术的突破;
2)探索开发全新模型,或许才是人形机器人发展突破的转机;
3)触觉传感器对人形机器人性能的进一步提升非常重要;
4)对于复杂任务,还很难通过一个端到端模型来实现;
5)在当前阶段,对于复杂操作任务,真实数据仍是更有效的解决方案;
6)具身智能是实现 AGI 的唯一途径;
7)不急于加快商业化落地的速度,希望能够自己掌控落地的节奏;
8)对于一个创业公司,要学会“看到未来”。
1. 推动人形机器人再次向前跨越的关键 —— AI技术的突破
Chat GPT3.5 凭借接近人类水平的自然语言理解和生成能力,迅速成为全球焦点。同样,也让身处具身智能领域的人看到 —— 人形机器人在将来拥有一颗真正类人大脑并非奢望。随着AI与硬件技术的完美融合,机器人将逐步突破环境适应性和复杂任务处理瓶颈,向完全自主的感知-决策-执行闭环系统演进。等到那个时候,在王兴兴看来,硬件或许会处于从属地位。
虽然说生成式人工智能技术的成熟,让他看到了AI赋能机器人发展的潜力。但是他也客观地指出,人类研究AI技术的时间并不长,仍处于技术摸索阶段,当前的AI技术水平并未达到预期水平,仍存在一些理论门槛去突破。
比如,现阶段AI模型、AI的训练数据集和AI场景的落地部署,都还远远不够。AI才是机器人行业发展的最大限制。当然硬件能力也存在欠缺,比如,电机扭矩、负载能力、操作精度、执行速度、部件寿命和视觉感知的分辨率,都存在可提升空间。
不过,硬件领域并不存在理论层面的壁垒,更多的是工程实践上的挑战,并且在时间预估方面具备较高的确定性。甚至,他毫不避讳地指出,一旦适配机器人的 AI 模型开发成功,以当下的工程能力与产业资源,数月的时间便可以完成 10 万个机器人硬件的定制工作 。
然而,AI 技术的发展却呈现出阶跃性、突变性的特点。现在感觉像是处于瓶颈期,但技术进步本身非常快,可能今天没做出来,突然明天就做出来了。AI技术的推进最终会是「全球共创」的结果。对于宇树科技来说,王兴兴认为当前最重要的事情是保持学习、持续不断跟进新技术的发展。
2. 探索开发全新模型,或许才是人形机器人发展突破的转机
当前,大语言模型对于人形机器人能力的提升主要体现在人机交互层面。然而,人形机器人需要与物理世界进行交互,需要多模态的具身智能大模型。
但在具身智能大模型的开发和训练上,我们会面临“先有鸡还是先有蛋”的问题,王兴兴表示,“现有模型质量不高,导致机器人无法采集到高质量数据;而没有足够的数据,我们又无法做出优质的模型。”
“无论是多模态大模型还是机器人模型,在结构上还有很多改进空间。理想情况下,我们应开发对数据需求较低的模型,就像人类一样,例如,一个小孩在成长过程中,通过较少的数据就能学会很多东西。”
相比之下,现有的大语言模型对数据依赖性很强,这与人类学习方式不同。现有的神经网络架构可能并非最优,可以研究脉冲神经网络或其他新结构。王兴兴认为,与其继续完善现有的大语言模型或多模态大模型,不如探索开发全新模型,这样可能会带来更大突破。
3. 触觉传感器对人形机器人性能的进一步提升非常重要
触觉传感器能让机器人感知硬度、压力、温度、湿度等信息。它不仅是机器人实现物理交互的“神经末梢”,更是实现自主适应、安全协作和复杂操作的关键,也是人形机器人突破“机械感”局限、迈向类人智能的核心技术。
但现在问题在于目前业内还未能提供机器人所需要的简洁、可靠的,且可量产的触觉传感器 —— 微型化、高灵敏度和高可靠性的传感器阵列。
当前触觉传感器在技术方面仍存在挑战。灵敏度和可靠性相当于是触觉传感器这个“跷跷板”的两端,两者相互对立。问题的关键在于如何使得触觉传感器的灵敏度和可靠性达到一个最佳的平衡。
王兴兴谈道,阵列式触觉传感器分布在机器人皮肤表面,与外界物体接触频率高,很难保证不产生磕碰损伤,从而出现零点漂移故障,并最终导致输出结果不准确。未来触觉传感器的研究应着重于提高灵敏度、耐用性和降低成本。通过新材料、新工艺和新算法的应用,有望解决当前触觉传感器存在的问题。
4. 对于复杂任务,还很难通过一个端到端模型来实现
目前机器人还做不到或者做不好类似于洗衣做饭、端茶倒水这样复杂的任务。
倒立、空翻、跳跃、避障等,都是针对固定的任务做了专门的AI训练。洗衣做饭,端茶倒水这种属于综合性的复杂任务,当下机器人在执行此类任务时,常因环境适应性差、操作精准度不足而难以胜任。
王兴兴讲到,在具体单个运控任务上,使用端到端方法已经很普遍。例如,机器人翻越障碍时,会通过深度相机直接控制关节角度,整个流程就是端到端的方式。
但在复杂多任务训练上,直接采用一个端到端模型来实现,难度还比较大。当前,在面对复杂任务时,通常的做法是将任务分解、分别训练,再合并进行整体训练。
究其根源,在于现有技术框架下,机器人对复杂场景的理解与应对能力有限。因此,亟待机器人具身智能大模型取得突破性进展,通过赋予机器人更强大的环境感知、智能决策与动作协同能力去解决。
5. 在当前阶段,对于复杂操作任务,真实数据仍是更有效的解决方案
对于简单任务,如跳舞或行走,王兴兴认为,目前宇树科技对于机器人模型的训练并不依赖大量真实数据,只是在某些情况下,会使用真实数据作为参考。通常,先用模型预测控制生成运动轨迹,或者从仿真中获取轨迹,再让机器人进行模仿学习。例如,机器人学习跳舞时,初始动作来自真实表演的数据。采集后筛选优化,再输入仿真环境训练,从而让机器人准确执行舞蹈动作。
对于复杂任务:存在仿真环境不真,调整仿真器时间成本高的问题;尤其是让全尺寸人形机器人执行复杂任务或进行人机交互时,单纯依靠仿真数据是不够的,仍需要依赖真实数据。
比如,在涉及大量零部件的接触和复杂物理环境的工业场景中,使用仿真器需要处理准确的物理模拟和材料变形,调整仿真器的时间成本很高,且仿真与真实环境差距较大,仿真训练效果可能会很有限。
总的来说,对于复杂操作任务,实物数据在当前阶段仍是更有效的解决方案。
6. 具身智能是实现 AGI 的唯一途径
王兴兴在一次演讲中曾谈到一个有意思的观点,人类和动物的智能表现不仅依赖神经元数量或大脑复杂度,也需身体结构提供物理交互与反馈。也可以说,身体结构在一定程度上会限制人类和动物的智能水平。比如,鹦鹉尽管神经元数量仅20万至30万,却能模仿人类语言。但因为鹦鹉食用坚果的习惯,长期训练了喉咙和舌头的灵活性,使其身体结构(如发声器官)为语言能力提供了基础。猴子虽然神经元数量更多,但受限于发声器官的结构(如喉部位置、肌肉控制等),却无法像鹦鹉一样模仿人类说话。
类比到AI领域,他认为 ,更高级的智能体必须是具有“物理肉身”,它的模型要能实时采集数据,并且能够通过身体与现实世界进行接触或碰撞,去理解重力、摩擦力、光学等物理概念,才能建立真正的世界模型。
对于没有“身体”的大语言模型,会存在“幻觉”问题,“幻觉”就是虚拟环境导致的。就像人在做梦的时候,人的大脑没办法判断这个虚拟环境的真实性,就会迷失。
他认为,脱离实体的大语言模型对物理世界的理解是不够的。正因为如此,很多顶尖 AI 学者才会提出要做世界模型。
纯虚拟环境的 AI 可能没办法诞生 AGI,真正的 AGI最后它一定要和“身体”做整合。
7. 不急于加快商业化落地的速度,希望能够自己掌控落地的节奏
当前宇树科技的人形机器人本体销售情况不错,但是王兴兴却表示,宇树科技当前并不急于加快商业化落地的速度,希望能够自己掌控落地的节奏。“我们希望人形机器人本体的各方面功能更加完善后再考虑商业化落地的问题。”
目前,宇树科技也在推进人形机器人在工业场景的落地,比如,宇树科技在蔚来汽车工厂部署人形机器人做搬运工作。但是王兴兴也坦率的讲到,在工业场景,现在大家在做的很多场景基本上都是固定工位、工序的训练,泛化比较差。机器人能做的事情完全依赖于训练的程度。
关于商业化落地的方向规划,宇树科技持更加开放的态度,不一定会全部押注到工业场景,也会推进在教育、科研、家庭等领域的商业化进程。
8. 对于一个创业公司,要学会“看到未来”
有媒体在采访中问到王兴兴,在具身智能机器人领域,面对特斯拉、小米这类巨头企业竞争的时候,作为中小企业,应该如何应对呢?
他给出了比较中肯的建议:中小公司最重要的是保持对前沿技术的敏感度,你先必须看当下最前沿的技术是什么,了解全世界这个行业内最头部的人在做什么事,才可能把握好技术和产品的未来发展路径。
对于一个创业公司,想要活下来,甚至希望推动整个产业发展,最重要的就是要能够具备“看到未来”的能力。
如果真的有幸可以“看到未来”,就可以预估未来1至5年的技术路线和产品格局,提前去做布局、做设计。能够做到这种程度,虽然不一定能做到行业第一,但至少可以在前期竞争中占据有利位置。