为什么这三个因素对具身智能那么重要?当下发展如何?

在具身智能领域,硬件重要还是算法数据重要,一直是争论的话题。然而,作为从自驾出来的人,我当然更倾向于下结论说 “数据最重要!!!” 但就目前的行业而言,硬件、算法、数据三要素缺一不可。如果硬要对标自动驾驶,我觉得整个具身领域也只做到了L0,本体甚至都还没做的很好。这里也和大家分享下对这三个要素的理解。

先谈下硬件,具身机器人本体将会统一吗?其实看自然界的进化,应该是大概率不会,甚至会更多元化,如何设计适配具体场景的本体尤为重要。一些极端情况下,甚至说可以抛弃算法和数据,但只要本体的结构和功能保证就可以很好地应用。那现在再去做硬件还有价值吗?纯软件或算法层面上,往往难以构建真正意义上的高壁垒。这就像系统工程,只有结合本体去做出的东西才真的有价值和领先性。具身智能的发展很大程度上依靠硬件和执行器技术的进步。构件的形态决定了速度和精度的上限,不同场景的功能需求也不尽相同。特斯拉Optimus采用了定制化的谐波减速电机,扭矩密度达到180Nm/kg,比传统伺服电机提高40%。MIT研发的"迷你猎豹"机器人通过串联弹性执行器(SEA)实现了5ms内的力控响应,为动态平衡提供了硬件保障。硬件作为基建,才能不断推动着算法研究的高度。而当下,电机发热、运动稳定性不足等问题依然突出,距离人类优秀运动员的能力还有相当大的差距。

再聊聊算法,大家有个共识,那就是搭建一个通用大脑去控制所有硬件本体。其实这里有很简单的一个事实基础,不同生物的思考和执行逻辑差异太大,机器人大脑脱离不开环境、传感器、具体场景,通用性较为难做,或者只能达到部分通用。VLA领域有两个主流的技术路线:一个是端到端VLA,一个是分层VLA。人形、四足等具体场景的端到端VLA方案,很难做,甚至没有几家能真的做出,所以业内大多是VA或者分层决策。当下工业界和学术界的路线还算比较对齐,但我相信等量产季来了,技术路线必定存在较大分歧。有些东西,就不可能全部靠某个方案解算出。如果传统算法有效,我们就不应该抛弃传统,只拥抱新的东西。再说回来,算法的高度,很大程度上也非常依靠数据和传感器。

最后谈下数据部分,真实数据采集困难,这一点相比于自动驾驶领域的数据,更难!sim2real的方案,保证不了真实场景的有效性。即使是真实数据,你不会采集的话,采集出的数据也不会work。一套通用的数据采集框架是必要的,特别是很多中小企业、研究机构,需要这类数据完成更多场景的赋能。scaling laws在短期内,依然持久有效。

上述内容是我们在知识星球【具身智能之心】中的讨论,也是国内首个具身智能全栈技术学习社区。如果您希望和近300+公司机构交流,快速入门进阶具身领域,欢迎加入国内首个具身智能开发者社区,也是目前该领域最大的知识付费社区,已经近1500人啦!


具身智能之心知识星球

创建的出发点是给大家提供一个具身相关的技术交流平台,交流学术和工程上的问题。星球内部的成员来自国内外知名高校实验室、具身相关机器人头部公司,其中高校和科研机构包括但不限于:斯坦福大学、加州大学、清华大学、西湖大学、上海交大、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学等;公司包括但不限于:智元机器人、有鹿机器人、云深处、优必选、傅里叶机器人、开普勒机器人、小米、星海图、银河通用、星尘智能、逐际动力等。

我们为大家汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台、以及各类技术学习路线,包括但不限于:

具身智能感知学习路线

具身智能交互学习路线

强化学习全栈学习路线视觉语言导航学习路线
视觉语言动作学习路线多模态大模型学理解
多模态大模型学生成Diffusion Policy学习路线
多传感器融合标定机械臂抓取位姿估计
机械臂的策略学习大模型与机器人路线
双足与四足机器人具身智能与大模型部署
触觉感知学习路线机器人导航学习路线

机器人规划控制

......

这里能够让小白快速入门,让已经入门的同学进一步提升,已经提升的同学结交更多的朋友。

日常分享和讨论的问题

  • 机器人仿真和数据采集有哪些平台?

  • 人形机器人怎么做模仿学习?

  • VLM在机器人抓取与规划任务中是怎么用的?

  • 分层决策一般是怎么做的?和端到端比优势劣势有哪些?

  • 具身机器人的研报有哪些?30家汇总

  • 多家头部具身机器人公司岗位分享招聘

  • 具身智能,如何选择研究方向?哪个方向容易出成果?

  • ......

加入星球有哪些福利?

  • 第一时间掌握具身智能相关的学术进展、工业落地应用;

  • 和行业大佬一起交流工作与求职相关的问题;

  • 优良的学习交流环境,能结识更多同行业的伙伴;

  • 星球内部专属学习视频,搭配文档不枯燥;

  • 具身智能相关工作岗位推荐,第一时间对接企业;

  • 行业机会挖掘,投资与项目对接

星球内容一览

0)国内外具身智能高校汇总

星球内部为大家汇总了具身智能多个研究方向的国内外知名实验室,供大家后期读研、申博、博后参考。

1)国内外具身智能公司汇总

星球内部为大家汇总了各类国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等方向。

2)具身智能研报汇总

星球内部为大家汇总了大模型、人形机器人等行业相关的研报,第一时间了解行业的发展与工业的落地情况。

3)机器人相关书籍汇总

星球内部汇总了机器人导航、概率机器人、机器人动力学与运动学、路径规划、机器人视觉控制等多个方向的PDF书籍,供大家做基础学习。

4)具身智能零部件品牌汇总

我们内部为大家汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等。

5)开源项目汇总

星球内部针对机器人仿真项目、机器人抓取、机器人控制、具身交互、具身感知等多个领域的开源项目进行了汇总,助力快速上手。

6)ToF与3D相机

为大家汇总了国内外知名ToF厂家、相关产品、技术手册、综述等内容。

7)具身智能数据集

针对具身感知、触觉感知、导航、问答、大模型、视觉语言模型、端到端、机械臂抓取、控制规划多个领域的开源数据集进行了汇总,再也不用担心找不到可用的数据集了。

8)具身智能仿真平台汇总

星球内部针对通用机器人仿真平台和真实场景仿真平台进行了汇总,机器人仿真这里全都有!

9)强化学习路线汇总

我们为大家汇总了基于LLM的强化学习、可解释强化学习、深度强化学习主流方案,一览各个子领域的应用训练。

10)具身智能感知学习路线

内部针对主动视觉感知、3D视觉感知定位、视觉语言导航、触觉感知等多个任务进行了汇总,具身感知路线,一网打尽。

11)具身智能交互

星球内部为大家汇总了具身智能与环境交互相关工作,涉及抓取、检测、视觉语言模型、具身问答、gaussian splatting等多块内容。

12)视觉语言导航

针对视觉语言导航、规划等多个应用内容,星球内部进行了详细的汇总,关注自动驾驶与机器人应用。

13)触觉感知

我们汇总了触觉感知最新综述、传感器应用、多模态算法集成、数据集等多项内容,让大家对这一前沿应用有着深刻了解。

14)多模态大模型理解

星球内部汇总了大量多模态大模型理解相关内容,  包括但不限于Image+Text到Text、 Video+Text到Text、 Audio+Text到Text、 3D+Text到Text、Many到Text等。

15)多模态大模型生成

除了多模态大模型理解,星球内部也汇总了大量多模态大模型生成相关内容,包括Image+Text到Image+Text、Video+Text到Video+Text、 Audio/Speech+Text到Audio/Speech+Text、Many到Image+Text、Many到Many等。

16)大模型微调与量化推理

17)视觉-语言-动作

内部为大家汇总了主流的VLA模型相关内容,一览最新视觉-语言-动作相关进展。

18)Diffusion Policy

针对扩散模型设计、Diffusion Policy具体任务应用、Diffusion Generation等进行了汇总;

19)机器人导航与规划

20)大模型部署相关

针对大模型部署框架、大模型轻量化方法等进行了汇总,助力落地。

21)机械臂抓取

针对机械臂抓取、任务数据表示、位姿估计、策略学习多个部分展开了汇总。

22)双足与四足机器人

星球内部对开源的双足与四足机器人项目、仿真、源码、硬件等部分进行了详细的汇总,助力从零搭建你的机器人。

23)四足/轮式+机械臂

针对常用的移动+执行硬件方案进行了汇总,助力大家快速搭建属于自己的系统。

星球内部直播分享

星球内部不定期邀请行业大佬直播分享,直播内容可以反复观看,部分直播内容一览!

星球内部交流

星球成员可以在星球内部自由提问,无论是工作选择还是研究方向选择,都能得到解答~

扫码加入

欢迎加入具身智能之心知识星球,平均每天不到5毛钱,国内首个具身智能交流社区,这里将承担未来5-10年的技术输出与行业关注。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值