具身智能 2024 年终盘点：具身科技前沿进展汇总全解析

转载已于 2025-01-07 11:27:11 修改

· 8.2k 阅读

6 ·

版权

原文链接：https://mp.weixin.qq.com/s/TTidU6diq1kp8WkvT69jcQ

文章标签：

#算法

于 2025-01-07 11:26:44 首次发布

具身智能专栏收录该内容

45 篇文章

订阅专栏

具身智能灵巧操作大模型

市场热点与行业前景
人工智能和机器学习发展推动具身智能技术突破，具身大模型整合多模态信息提升机器人灵巧操作能力，在多行业广泛应用。2024 年，众多企业积极布局，如 Pi、Skild AI 等，市场投资活跃，中国具身智能领域投融资事件达 38 起，金额 51.1 亿元，预计市场将爆发式增长。
典型案例
谷歌 RT 系列：2024 年 1 月发布的 RT - H 结合语言动作层级，优化任务控制方式，提高机器人在多任务环境中的准确性和适应性，成功率比 RT - 2 提高约 15%。

北京大学 RoboMamba：2024 年 6 月推出，采用先进多模态设计，集成视觉编码器与线性复杂度状态空间语言模型，通过高效微调策略，在推理和操控方面表现卓越，推理速度达现有模型三倍，在模拟与现实实验中精准完成任务。

清华大学 TSAIL 团队 RDT：2024 年 10 月推出 RDT - 1B，基于扩散模型设计与大规模预训练策略，具备 1.2B 参数量，在双臂操控任务中表现出色，零样本泛化能力强，已开源。

字节跳动 RoboFlamingo：利用预训练 VLMs 进行单步视觉语言理解，通过模仿学习微调，在测试基准上性能优异，为机器人操作提供有效解决方案。

三星 RobotGPT：提出创新框架，将环境线索转换为自然语言，虽存在挑战，但通过有效提示结构等提高任务成功率，为 ChatGPT 在机器人操控应用中开辟前景。

具身智能支气管镜机器人：《Nature Communications》刊登了2024 年 1 月浙江大学团队研究成果，结合 AI - 人类共享控制算法和创新硬件设计，提升医疗检查安全性和效率，有望促进医疗资源平等。

空间智能

市场热点与行业前景
视觉大模型中感知性能对整体性能至关重要，空间智能基础模型进步是实现具身智能关键。目前主流 VLM 模型空间推理能力有缺陷，现有空间感知模型难以满足具身智能需求。但空间智能领域发展迅速，吸引大量资本关注，如 World Labs 完成高额融资，其估值超 10 亿美元。同时，市场研究机构预测相关市场规模将快速增长。
典型案例
World Labs 模型：2024 年 12 月推出，可从单张图片生成 3D 世界，提升 3D 内容制作效率，未来将拓展至更全面的环境感知、理解与推理。

谷歌 Genie 2：2024 年 12 月推出，能通过单张图片或文字描述生成 3D 场景，模拟物理现象，支持对象交互等，广泛应用于 AI 代理训练与测试等场景。

Meta NWM：2024 年 12 月推出，可从单张图像生成连续视频，提升 AI 在复杂环境中的空间智能和导航能力，为机器人导航等领域提供支持。

人形机器人

市场热点与行业前景
技术突破与人形机器人自身优势使其应用广泛，政府重视与政策支持提供良好发展环境。人工智能等技术提升其能力，生成式 AI 加速商业化进程。市场规模增长迅速，全球和中国市场均有望大幅扩张，投融资活跃，推动产品落地。
典型案例
Figure 02 和特斯拉 Optimus：Figure 02 采用外骨骼结构，视觉感知强，手部灵活，计算和 AI 推理能力提升。Optimus Gen 2 可完成多种复杂任务，具备学习能力，在工厂和家庭场景表现出色。
Agility Robotics Digit：2024 年 6 月在物流搬运领域应用，以 “机器人即服务” 形式部署，设计灵活，能搬运一定重量物品，工作于 Spanx 工厂。
优必选 Walker S1：2024 年 10 月发布，与多种设备协同作业，实现工业场景应用，软硬件升级，具备高效导航和任务规划能力，意向订单超 500 台。
五八智能机器人：2024 年 7 月完成 3C 场景应用验证，实现多项任务操作，与长虹集团合作，受央视报道。
腾讯小五机器人：2024 年 9 月发布，采用四腿轮足复合设计，具备多种能力，在养老院场景表现良好，为智能家居和人机共生发展提供支持。

大模型仿真训练平台

市场热点与行业前景
大规模仿真训练平台是人工智能与机器人技术发展关键基础设施，市场增长迅速。高性能算力平台为其提供硬件支持，新一代平台提升仿真精度，缩短机器人研发周期，应用场景广泛，与前沿技术融合推动智能机器人发展，未来地位将更突出。
典型案例
“通境”（TongVerse）平台：北京人工智能通研院开发，支持多种机器人视觉 - 语言 - 运动联合解译，在 2024 年 CRAIC 人形机器人创新挑战赛中实现突破，未来将提供多场景解决方案。

NVIDIA Isaac Sim：NVIDIA 推出的一站式仿真平台，基于 Omniverse 平台，具备高保真物理仿真等功能，提供丰富工具和 API，加速机器人研发。
Taichi：高性能开源编程框架，专注高效数值计算和物理仿真，广泛应用于机器人仿真等领域，支持多种硬件架构，灵活性、性能和跨平台能力强，未来前景广阔。

Genesis：用于通用机器人学习的生成式和可微分物理引擎，支持多种材料模拟和机器人任务，具有语言交互性，数据生成能力强，应用广泛。

触感灵巧手

市场热点与行业前景
灵巧手和具身触觉智能市场发展迅速，全球机器人灵巧手市场容量和规模增长，具身触觉领域融资活跃。技术进步与人形机器人需求推动其发展，国家和地方政府支持，企业推出产品，技术创新拓展应用场景，投融资热潮加速商业化落地，未来将推动人机交互模式变革。
典型案例
特斯拉 Optimus 触感灵巧手：拥有 22 个自由度，绳驱方式提升关节运动精准度和速度，集成力和触觉传感器，感知物体属性，结合机器学习算法，可完成多样化任务。

Linker hand：灵心巧手公司推出，性价比高，具备 20 个主动自由度，配备多传感器系统，自主研发关键技术，构建大规模灵巧操作数据集。

因时 RH56 系列灵巧手：北京因时机器人科技有限公司产品，具有一定自由度和抓力，适应多种场景，通讯接口多样，配备压力传感器，在服务机器人和医疗假肢领域广泛应用。

Freedom 仿人五指触感灵巧手：清华大学孙富春教授团队孵化公司开发，重量轻、抓取力强，指尖配备高精度传感器，适用于工业特殊环境，能完成复杂任务。

灵巧手的视触觉传感技术：2024 年取得多项突破，包括多模态感知算法、先进系统开发以及大规模数据集发布和预训练方法提出，推动灵巧手视触觉技术发展。

具身智能导航大模型

市场热点与行业前景
具身智能导航大模型是机器人智能化发展重要里程碑，融合多技术提升机器人能力，应用前景广泛，在多个领域发挥重要作用。研发和应用进入快速发展期，政策支持，未来有望成为机器人行业重要驱动力，与前沿技术融合将拓展应用场景。
典型案例
InstructionNav：2024 年 6 月北京大学完成，基于 Chain - of - Navigation 机制，无需训练即可超越多种导航方法，有效提升导航规划正确率。

SPIN：2024 年 CVPR 会议上 CMU 团队发表，通过强化学习训练单一模型，实现机器人多方面控制，在多种场景表现出色，展示移动操作机器人适应性和灵活性。

Uni - NaVid：2024 年 12 月北京大学提出，首个基于视频的 VLA 模型，统一多种具身导航任务，实验展示其优势和泛化能力。

总结与展望

2024 年具身智能领域在多个方面取得显著进展，从灵巧操作大模型到空间智能、人形机器人、大规模仿真训练平台、触感灵巧手以及导航大模型，各领域技术不断创新，市场前景广阔，典型案例丰富多样。未来，随着技术持续进步与融合，具身智能有望在更多领域发挥关键作用，推动社会向智能化转型。但同时，人形机器人等方面的安全性和伦理问题也需持续关注，确保技术健康发展。

附录（论文及开源代码链接）

谷歌 RT 系列
论文：Rt - 2: Vision - language - action models transfer web knowledge to robotic control
开源代码：https://robotics-transformer1.github.io/
北京大学 RoboMamba
论文：RoboMamba: Efficient Vision - Language - Action Model for Robotic Reasoning and Manipulation
开源代码：[https://github.com/THU - KEG/RoboMamba](https://github.com/THU- KEG/RoboMamba)
清华大学 TSAIL 团队 RDT
论文：Robotics Diffusion Transformer for Bimanual Manipulation
开源代码：[https://github.com/THU - KEG/RDT](https://github.com/THU - KEG/RDT)
字节跳动 RoboFlamingo
论文：Vision - language foundation models as effective robot imitators
开源代码：https://roboflamingo.github.io/
三星 RobotGPT
论文：Robotgpt: Robot manipulation learning from chatgpt
开源代码：暂未提及
具身智能支气管镜机器人
论文：[AI - assisted bronchoscopy with a shared - control algorithm and modular design](https://www.nature.com/articles/s41467 - 023 - 43830 - 0)
开源代码：暂未提及
World Labs 模型
论文及开源代码：暂未提及，可关注https://www.worldlabs.ai/blog获取最新信息
谷歌 Genie 2
论文及开源代码：[Genie - 2 - a - large - scale - foundation - world - model](https://deepmind.google/discover/blog/genie - 2 - a - large - scale - foundation - world - model/)
Meta NWM
论文：Navigation World Models
开源代码：暂未提及
Figure 02 和特斯拉 Optimus
论文及开源代码：部分技术细节可能在特斯拉官方发布资料中有提及，如https://www.tesla.com/optimus。Figure 02 相关论文及开源情况需关注 Figure AI 官方渠道。
Agility Robotics Digit
论文及开源代码：可关注 Agility Robotics 官方网站获取最新信息。
优必选 Walker S1
论文及开源代码：暂未提及，可关注优必选官方渠道获取相关技术资料。
五八智能机器人
论文及开源代码：暂未提及，可关注五八智能官方渠道获取最新信息。
腾讯小五机器人
论文及开源代码：暂未提及，可关注腾讯 Robotics X 实验室官方渠道获取最新信息。
“通境”（TongVerse）平台
论文及开源代码：暂未提及，可关注北京人工智能通研院官方渠道获取相关技术资料。
NVIDIA Isaac Sim
论文及开源代码：可参考 NVIDIA 官方文档和开发者资源，如 [https://developer.download.nvidia.cn/assets/Isaac - Sim/Isaac - Sim - User - Guide.pdf](https://developer.download.nvidia.cn/assets/Isaac - Sim/Isaac - Sim - User - Guide.pdf)。
Taichi
论文及开源代码：[https://github.com/taichi - dev/taichi](https://github.com/taichi - dev/taichi)，更多资料可参考 Taichi 官方网站。
Genesis
论文及开源代码：https://genesis-embodied-ai.github.io/。
特斯拉 Optimus 触感灵巧手
论文及开源代码：部分技术细节可能在特斯拉官方发布资料中有提及，如https://www.tesla.com/optimus，但可能未完全开源。
Linker hand
论文及开源代码：暂未提及，可关注灵心巧手公司官方渠道获取相关技术资料。
因时 RH56 系列灵巧手
论文及开源代码：暂未提及，可关注北京因时机器人科技有限公司官方渠道获取相关技术资料。
Freedom 仿人五指触感灵巧手
论文及开源代码：暂未提及，可关注清瑞博源智能科技河北有限责任公司官方渠道获取相关技术资料。
灵巧手的视触觉传感技术
Touch100k 数据集相关论文：Touch100k: A Large - Scale Touch - Language - Vision Dataset for Touch - Centric Multimodal Representation
其他技术相关论文及开源代码：如 RoboFusion 和 UniTouch 等，可参考文中提及的会议论文出处，开源代码情况需关注相关研究团队官方渠道。
InstructionNav
论文：InstructionNav: Zero - Shot General - Purpose Instruction Following for Navigation in Unexplored Environments
开源代码：[https://github.com/PKU - VCL/InstructionNav](https://github.com/PKU - VCL/InstructionNav)
SPIN
论文：[SPIN: Simultaneous Perception, Interaction and Navigation](https://openaccess.thecvf.com/content/CVPR2024/papers/Pathak_SPIN_Simultaneous_Perception_Interaction_and_N