0. 简介
具身智能(Embodied Intelligence)是指通过物理体(如机器人或生物体)与环境进行互动而获得的智能。这种智能强调身体在认知过程中的重要性,认为智能不仅仅是大脑的功能,还包括身体的感知、运动和与环境的交互。具身智能的研究领域涉及机器人学、认知科学、神经科学等,重点在于如何通过身体的运动和感知来实现智能行为。而人形机器人与具身智能最近两年有效的结合到了一起,并以openloong为首,诞生了很多开源项目。从第一代到第四代的发展,第一代遥控设备,第二代机械臂(工业机器人),第三代移动智能机器人(扫地机器人等),第四代才是通用机器人。而作为机器人行业的工作者,这也确实需要紧跟技术发展。最近就带大家来熟悉学习人形机器人和具身智能。因为作者暂时不是专门从事人形机器人行业的。所以只能从通用的一些内容来介绍。
1. 具身智能上游—人机交互
以ChatGPT为代表的大模型这几年在自然语言处理领域取得了突破性进展。Awesome-Embodied-AI项目收录了多项将大型语言模型与具身AI相结合的研究。这里我们给出比较具有代表的工作:
- Awesome-LLM-Robotics
- 链接: Awesome-LLM-Robotics
- 工作概述: 这个项目汇集了与大型语言模型(LLM)在机器人领域的应用相关的资源和研究,包括文献、工具、数据集和代码库。目的是促进LLM在机器人领域的研究和开发,探索如何将自然语言处理与机器人技术结合,提升机器人在理解和执行任务方面的能力。
- Everything-LLMs-And-Robotics
- 链接: Everything-LLMs-And-Robotics
- 工作概述: 该项目旨在提供一个全面的资源库,涵盖大型语言模型和机器人技术的所有相关内容。它包含教程、研究论文、工具、框架和应用示例,以帮助研究人员和开发者更好地理解和应用LLM在机器人领域的潜力。
- Awesome LLM-Powered Agent
- 链接: Awesome LLM-Powered Agent
- 工作概述: 该项目专注于基于大型语言模型的智能代理的开发和研究。它收集了与智能代理相关的资源,包括框架、工具、研究论文和应用案例,旨在帮助开发者创建能够理解和生成自然语言的自主智能代理。
- awesome-embodied-vision
- 链接: awesome-embodied-vision
- 工作概述: 这个项目专注于具身视觉(Embodied Vision)领域,汇集了相关的研究、数据集、工具和应用。它探讨如何通过视觉感知增强机器人在物理环境中的智能表现,涉及计算机视觉、机器人学和人工智能等多个领域。
2. 自主导航相关项目
在自主导航领域,研究者们不断探索如何利用最新的技术来提升机器人在复杂环境中的导航能力。以下是一些重要的研究项目和资源,它们展示了在自主导航中的前沿技术和应用:
2.1 LM-Nav: Robotic Navigation with Large Pre-Trained Models
- 链接: LM-Nav
- 工作概述: LM-Nav项目利用大型预训练模型来改进机器人导航任务。通过集成大型语言模型和视觉模型,LM-Nav实现了更高效的路径规划和环境理解。该项目展示了如何通过预训练的深度学习模型增强机器人在未知环境中的导航能力,特别是在复杂的动态场景中。
2.2 Visual Language Maps for Robot Navigation
- 链接: Visual Language Maps for Robot Navigation
- 工作概述: 该项目提出了一种视觉语言地图的方法,通过将视觉信息与语言描述结合,改进了机器人导航的精度。Visual Language Maps允许机器人通过自然语言指令来理解和探索环境,从而在导航过程中更好地执行任务。这种方法对提高机器人在复杂和动态环境中的表现具有重要意义。
2.3 ConceptFusion: Open-set Multimodal 3D Mapping
- 链接: ConceptFusion
- 工作概述: ConceptFusion项目致力于开放集多模态三维映射。该研究结合了视觉、语言和其他传感器数据,创建了一个能够处理开放集环境的三维地图。这种方法支持机器人在多变的环境中进行自适应导航,并能够处理未见过的物体和场景。
2.4 ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation
- 链接: ESC
- 工作概述: ESC项目专注于通过软常识约束来进行零-shot对象导航。该方法利用常识知识来帮助机器人在没有先验知识的情况下导航到目标对象。通过引入常识约束,ESC能够提升机器人在处理未知目标时的导航能力,并减少对训练数据的依赖。
2.5 ViNG: Learning Open-World Navigation with Visual Goals
- 链接: ViNG
- 工作概述: ViNG项目探索了基于视觉目标的开放世界导航。该方法通过学习视觉目标和环境特征,使机器人能够在没有明确地图或预定义目标的情况下进行导航。ViNG的目标是提升机器人在动态和未知环境中的自适应能力,支持机器人自主探索和任务执行。
2.6 RECON: Learning to Explore the Real World with a Ground Robot
- 链接: RECON
- 工作概述: RECON项目专注于在真实世界中探索和导航。该研究开发了用于地面机器人的探索算法,支持机器人在未标定环境中进行自主学习和导航。RECON的目标是提高机器人在实际应用中的探索效率,并解决现实环境中的复杂导航问题。
2.7 ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints
- 链接: ViKiNG
- 工作概述: ViKiNG项目致力于公里尺度的视觉导航,结合地理提示来改进长距离导航能力。该方法利用视觉信息和地理数据来进行大范围的导航和路径规划,适用于长距离移动和大规模环境中的自主导航。
2.8 General Navigation Models
- 链接: General Navigation Models
- 工作概述: General Navigation Models项目致力于开发通用导航模型。这些模型旨在提供一种统一的导航框架,可以应用于各种环境和任务。该项目汇集了不同导航策略和模型的研究,支持跨领域的导航应用和技术转移。
3. 人形机器人强化学习
3.1 Humanoid-Gym 框架
Humanoid-Gym 框架通过其精心设计的奖励函数以及域随机化技术,有望显著简化人形机器人的训练,并降低 sim-to-real 转换的难度。这个框架结合了先进的强化学习技术和高效的仿真环境,提供了一种系统化的方法来提高人形机器人的自主学习能力。其主要优势包括:
- 奖励函数设计:通过精心设计的奖励函数,Humanoid-Gym 能够引导人形机器人在仿真环境中逐步学习和优化其行为。这种设计使得机器人能够在训练过程中获得有意义的反馈,从而加速学习过程。
- 域随机化:域随机化技术通过引入多种环境变异,提升了机器人在真实世界中的适应能力。这一技术的应用能够有效地减少因训练环境与真实环境之间的差异所带来的性能下降问题。
- Sim-to-Real 转换:Humanoid-Gym 提供了一种有效的 sim-to-real 转换策略,使得在仿真中训练的机器人策略能够无缝地迁移到实际机器人上。这一过程通过减少仿真和现实环境之间的差距来实现,从而提高了实际应用中的成功率。
项目页面: Humanoid-Gym
GitHub 代码库:Humanoid-Gym GitHub
3.2 rl_sdk
rl_sdk
是傅里叶智能公司开源项目中的一个库,主要用于将强化学习(RL)训练得到的策略部署于 ROS 的 Gazebo 仿真中。该库在仿真环境中实现了对机器人运动的控制,并支持通过键盘控制仿真中的机器人。rl_sdk
的主要功能包括:
- 控制量获取:通过该库,用户可以从仿真环境中获取机器人的实时控制量数据,以便进行策略的优化和调整。
- 控制量计算:
rl_sdk
提供了计算控制量的功能,这些控制量基于强化学习策略生成,确保机器人在仿真中能够按照预期的行为进行运动。
GitHub 代码库:rl_sdk GitHub
3.3 HumanPlus
HumanPlus 是一个创新的开源项目,结合了先进的机器学习算法和硬件系统,使得人形机器人能够实时模仿人类的动作。这一项目通过提升机器人在复杂环境中的适应性和互动性,推动了人形机器人技术的发展。主要特点包括:
- 实时模仿:通过先进的机器学习算法,HumanPlus 能够使机器人实时模仿人类动作,提高了机器人在多变环境中的灵活性和响应能力。
- 硬件系统集成:该项目还包括了与机器人硬件系统的深度集成,确保了机器人能够在实际应用中表现出色。
项目页面:HumanPlus
3.4 rl_sar 项目
项目概述:
rl_sar
是一个专注于强化学习(RL)在搜索与救援(SAR)任务中的应用的项目。该项目旨在利用强化学习技术来提升机器人在紧急情况下的自主导航和决策能力,特别是在复杂和不确定的环境中,如灾后救援场景。
主要特点:
- 搜索与救援任务:
rl_sar
项目致力于解决机器人在搜索与救援任务中的挑战,包括定位和救援受困者、避障和路径规划等关键问题。 - 强化学习算法:项目中实现了多种强化学习算法,这些算法通过训练使机器人能够在模拟环境中学习有效的策略,以应对各种复杂情况。
- 仿真环境:
rl_sar
提供了一个仿真环境,用于训练和评估机器人在搜索与救援任务中的表现。这些仿真环境可以模拟真实世界中的多种场景,帮助研究人员和开发者测试和优化算法。 - 应用案例:该项目包括了一些实际的应用案例,展示了如何将强化学习应用于实际的搜索与救援任务中,这些案例可以作为其他相关研究和开发工作的参考。
项目页面:
当然,这里是对这些项目的详细描述和相应的 GitHub 链接:
3.5 PBRS (Policy-Based Reinforcement Strategy)
项目概述:
PBRS 项目专注于人形机器人的强化学习和控制策略的开发。通过强化学习算法,PBRS 旨在优化人形机器人的动作和决策策略,提高其在各种环境中的表现。项目中的策略可以应用于机器人运动控制、任务执行等方面,从而提升机器人在实际应用中的灵活性和自主性。
GitHub 页面:
3.6 openloong
项目概述:
openloong 提供了一系列关于人形机器人仿真的工具和资源。该项目包括了用于人形机器人仿真的工具集,帮助研究人员和开发者创建和测试机器人模型。openloong 的资源能够支持不同的仿真任务,从基本的机器人运动到复杂的操作和互动。
GitHub 页面:
3.7 FootStep
项目概述:
FootStep 项目实现了基于模型的脚步规划,用于提高人形机器人的步态和行走能力。该项目开发了用于规划和优化步态的算法,使机器人能够在各种地形和环境中有效地移动。FootStep 的目标是提升机器人在复杂环境中的稳定性和行走效率。
GitHub 页面:
3.8 FLD (Flexible Locomotion and Dynamics)
项目概述:
FLD 项目致力于开发灵活的人形机器人动作控制技术。项目中的技术和算法旨在提升机器人在不同环境中的动态运动能力和适应性。FLD 关注于提高机器人在实际应用中的灵活性,使其能够更好地应对各种动态和复杂的任务。