
具身智能
文章平均质量分 95
一点人工一点智能
小工具集散地,知识随笔的分享小站,公众号一点人工一点智能
展开
-
基于混合模型的三步优化框架在人形机器人跳跃运动中的应用
本文提出了一种基于三步优化框架的解决方案,通过分层建模与优化,在保证计算效率的同时实现了跳跃轨迹的精确生成。三步轨迹优化框架包括三个子优化过程,每个步骤对应一个特定的动态模型,以提升优化速度并维持准确性和实用性。原创 2025-04-06 18:43:41 · 862 阅读 · 0 评论 -
MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移
MoManipVLA的核心创新在于利用预训练VLA模型生成高泛化能力的末端执行器路径点,并通过双层次轨迹优化框架(Bi-Level Optimization)联合规划基座与机械臂的运动轨迹,确保物理可行性(如可达性、平滑性、碰撞避免)。原创 2025-04-02 10:37:17 · 919 阅读 · 0 评论 -
基于Real-Sim-Real循环框架的机器人策略迁移方法
本文提出的Real-Sim-Real(RSR)循环框架通过引入可微分仿真技术,构建了一个闭环的系统性解决方案。其核心创新点在于将仿真参数优化与策略训练过程解耦,形成两个相互促进的反馈环路(图1)。原创 2025-03-26 12:23:03 · 1058 阅读 · 0 评论 -
仿真世界的作弊代码:MuJoCo软接触模型+ iLQR=现实机器人完美步态
本文提出了一种折中方案:利用MuJoCo物理引擎的高效仿真能力,结合迭代线性二次调节器(iLQR)算法,构建一种简单但高效的全身模型预测控制框架。该方法的核心优势在于标准化工具链(MuJoCo + iLQR)的采用,显著降低了模型预测控制的实现门槛。原创 2025-03-24 22:07:22 · 1081 阅读 · 0 评论 -
让机器人学会“读心术“:FABG如何实现情感零延迟交互?
论文标题《FABG:End-to-end Imitation Learning for Embodied Affective Human-Robot Interaction》明确了研究的核心目标——通过端到端模仿学习实现具有情感表达的具身人机交互。标题中的“Facial Affective Behavior Generation”(FABG)表明系统专注于生成自然的面部情感行为,这一设计直接针对传统人机交互中情感表达的机械化和不连贯问题。原创 2025-03-23 13:15:02 · 1218 阅读 · 0 评论 -
基于HWC-Loco框架的鲁棒人形机器人运动控制方法
该论文提出了一种分层全身控制框架HWC-Loco,旨在解决人形机器人在复杂环境中的鲁棒运动控制问题。摘要部分明确指出,现有基于强化学习的方法虽在仿真环境中表现优异,但面临仿真与现实(Sim2Real)的动力学差异,且传统鲁棒优化方法常导致策略过于保守。HWC-Loco通过分层策略设计,动态协调目标追踪与安全恢复的平衡,并通过人类行为模仿提升运动自然性。作者指出,经典模型驱动方法依赖精确动力学建模,而数据驱动方法(如强化学习)虽具有泛化潜力,但受限于仿真环境与实际部署的动力学差异。原创 2025-03-21 09:11:34 · 1160 阅读 · 0 评论 -
HOVER:人形机器人的多功能神经网络全身控制器
论文《HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots》提出了一种新型的多模态神经网络控制器HOVER,旨在解决人形机器人全身控制中不同任务模式(如导航、操作、桌面操控等)的兼容性问题。现有方法通常为每个控制模式单独训练策略,导致控制器缺乏通用性。HOVER通过引入运动模仿和策略蒸馏技术,将多个控制模式整合到一个统一策略中,实现了跨模式的技能共享与无缝切换。原创 2025-03-18 11:42:42 · 794 阅读 · 0 评论 -
基于视觉的仿人机器人灵巧操作:从模拟到现实的强化学习
本文通过系统化解决环境建模、奖励设计、策略学习与感知迁移四大挑战,构建了一个可扩展的Sim-to-Real框架,首次实现了仿人机器人多指手视觉灵巧操作的策略迁移。原创 2025-03-17 20:45:51 · 1039 阅读 · 0 评论 -
ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制
ChatVLA框架,其核心创新在于分阶段对齐训练和混合专家架构(MoE)。前者通过先掌握控制任务再逐步引入多模态数据的策略保留对齐能力,后者通过共享注意力层与独立MLP层的设计减少任务干扰。原创 2025-03-04 16:05:02 · 896 阅读 · 0 评论 -
AnyDexGrasp: 通用灵巧抓取方法的创新与应用
通过个性化的训练和优化,AnyDexGrasp 能够根据不同机械手的特点调整其策略,从而在多变的任务环境中保持高效的抓取能力。接着,针对每一种机械手,通过现实世界的试错训练出独特的抓取决策模型,将这些表示转化为最终的抓取姿势。每一个抓取决策子模型都是通过神经网络学习得到的,它接收一个接触中心抓取表示作为输入,并输出一个介于0到1之间的分数,指示相应的抓取候选是否可能成功。例如,在实验中,研究人员发现即便是在仅有几百次抓取尝试的情况下,模型也能显著改善抓取效果,显示出其卓越的学习效率和适应性。原创 2025-03-03 22:27:50 · 935 阅读 · 0 评论 -
Harmon:从语言描述中生成人形机器人的全身动作
这篇论文介绍了一种名为“HARMON”的方法,用于从自然语言描述中生成人形机器人的全身运动。该方法利用了人类运动数据集中的先验知识来初始化机器人动作,并利用视觉语言模型(Vision Language Models,VLM)的能力编辑和优化这些动作。通过模拟和真实世界实验验证,该方法能够产生自然、富有表现力且符合文本描述的人形机器人动作。原创 2025-02-27 09:58:58 · 1086 阅读 · 0 评论 -
Dream to Drive:基于解析世界模型的自动驾驶车辆控制
本文提出了一种基于可微分仿真器的自动驾驶车辆控制方法,首次将可微分仿真应用于世界模型(World Model)的训练。通过引入解析世界模型(Analytic World Models, AWMs),作者设计了三种新任务——相对里程计预测、最优状态规划和逆最优状态估计,旨在解决传统基于策略的模型(如APG)在规划能力与可解释性上的不足。原创 2025-02-23 17:48:10 · 1042 阅读 · 0 评论 -
VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架
该论文的主要创新点在于提出了VR-Robo系统,实现了机器人在仿真环境与真实世界之间的快速转换。本文介绍了一种名为VR-Robo的框架,该框架能够为视觉导航和机器人运动学习提供真实感强、物理交互性强的数字孪生仿真环境。该方法利用多视图图像进行基于3DGS的场景重建,并将这些环境整合到支持自我中心视觉感知和网格基物理交互的模拟器中。原创 2025-02-17 10:46:09 · 1360 阅读 · 0 评论 -
NaVILA:用于足式机器人导航的VLA模型
本文提出的NaVILA模型是一种结合了视觉语言理解和低级运动控制的系统,用于实现在现实世界中的导航任务。该模型采用了高效的预训练视觉语言模型(VLM)来处理视频输入,并将其与低级运动控制器相结合,以实现精确的关节运动控制。这种模型设计的优势在于其能够适应不同的环境并具有较强的泛化能力。原创 2025-01-08 18:01:22 · 1053 阅读 · 0 评论