具身智能
文章平均质量分 89
AI生成未来
这个作者很懒,什么都没留下…
展开
-
视频生成和具身智能强强联合!谷歌&卡内基梅隆&斯坦福发布Gen2Act:泛化超棒!
机器人操作策略在面对新任务时,往往难以处理未见过的物体类型和新动作。由于机器人数据采集成本高,如何实现操作策略的泛化是一个关键挑战。给定由图像指定的场景和用文本描述的任务目标,我们希望机器人操作系统执行一系列动作来完成任务。为在未知场景中实现这一目标,我们从网络视频数据中学习运动预测信息,形成视频预测模型,该模型能够零样本生成任务的人类视频。为了将生成的视频转化为机器人动作,我们训练了一个闭环策略,该策略基于视频和最后次机器人观测进行条件判断,通过行为克隆对一个小规模机器人交互数据集进行训练。原创 2024-10-22 08:26:06 · 743 阅读 · 0 评论 -
让具身智能更快更强!华东师大&上大提出TinyVLA:高效视觉-语言-动作模型,遥遥领先
解决的问题:现有的视觉-语言-动作(VLA)模型在推理速度慢和需要大量机器人数据进行预训练方面面临挑战,限制了实际应用。提出的方案:引入一种新型紧凑型视觉-语言-动作模型TinyVLA,提供更快的推理速度和更高的数据效率,消除预训练阶段的需求。应用的技术:TinyVLA框架包括两个关键组件:1) 使用高效的多模态模型初始化策略骨干;2) 在微调过程中集成扩散策略解码器,以实现精确的机器人动作。达到的效果。原创 2024-09-28 10:39:05 · 1258 阅读 · 0 评论 -
具身智能成败之关键!干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型!
文章链接:https://arxiv.org/pdf/2405.14093本综述是关于具身智能领域中新兴的视觉-语言-动作模型的首次全面回顾。对具身智能领域中涌现的VLA模型进行了全面回顾,涵盖了架构、训练目标和机器人任务等各个方面。引入了当前机器人系统的分层结构分类法,包含三个主要组件:预训练、控制策略和任务规划器。预训练技术旨在增强VLAs的特定方面,如视觉编码器或动力学模型。低层次控制策略根据指定的语言命令和感知到的环境执行低层次动作。高层次任务规划器将长远任务分解为由控制策略执行的子任务。原创 2024-08-18 22:32:33 · 1060 阅读 · 0 评论
分享