自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(149)
  • 收藏
  • 关注

原创 【论文阅读】LingBot-World:推进开源世界模型发展

本文提出了一种名为LingBot-World的开源世界模拟器,它能通过文本和动作指令生成高保真、长时程且可交互的虚拟环境视频。

2026-02-10 16:46:38 494

原创 【论文阅读】TIDAL:高频VLA控制的时序交错扩散与动作循环

本文提出了一种名为TIDAL的分层框架,通过将“语义思考”和“高频动作”解耦,让笨重的AI大脑也能指挥机器人做出敏捷的反应,从而在不降低智能水平的前提下实现高频控制。

2026-02-03 15:53:15 531

原创 【论文阅读】PROGRESSLM: 迈向VLM的Progress推理

本文旨在解决视觉语言模型(VLMs)难以仅凭一张图片推断任务完成进度的问题,提出了一种模仿人类“找参照+脑补过程”的推理方法,并构建了相应的评测基准和模型。

2026-02-02 20:55:46 445

原创 【论文阅读】SILENTDRIFT利用action chunking对VLA进行隐蔽后门攻击

本文提出了一种名为SILENTDRIFT的隐蔽后门攻击方法,利用视觉-语言-动作(VLA)模型在动作分块和相对位姿表示上的设计缺陷,通过平滑的微小扰动积累导致机器人执行失败,且难以被检测。

2026-02-02 20:41:15 474

原创 【论文阅读】Being-H0.5:规模化以人为中心的机器人学习以实现跨具身化泛化

本文提出了一种名为 Being-H0.5 的机器人模型,通过将人类动作作为通用模板,让不同形态的机器人(如机械臂、人形机器人)能共享学习成果,从而实现跨形态的技能泛化和实际部署。

2026-02-02 18:01:10 619

原创 【论文自动阅读】未来光流预测提升机器人控制与视频生成

本文提出了一种名为FOFPred的模型,通过语言指令预测未来的光流(像素运动),从而帮助机器人更好地控制动作和生成视频。

2026-02-02 17:40:41 489

原创 【论文自动阅读】ReWorld:具身世界模型的多维度奖励建模

本文提出了一种名为ReWorld的框架,利用分层奖励模型和强化学习,解决了视频生成模型在物理真实性、动作合理性和任务逻辑上与视觉效果脱节的问题。

2026-02-02 17:27:35 479

原创 【论文自动阅读】X-Distill:跨架构视觉蒸馏在Visuomotor Learning中的应用

本文提出了一种名为X-Distill的方法,通过知识蒸馏将强大的视觉Transformer模型(ViT)的知识迁移到轻量级的卷积神经网络(CNN)中,从而在数据量很少的情况下,让机器人学会根据视觉信息进行操作。

2026-02-02 15:59:37 606

原创 【论文自动阅读】技能感知扩散技术实现可泛化的机器人操作

本文提出了一种名为SADiff的技能感知扩散模型,通过显式地引入“技能”级别的信息(如倒水、抓取)来指导机器人生成动作,从而让机器人能举一反三,灵活应对没见过的物体和环境。

2026-02-02 01:09:51 491

原创 【论文自动阅读】GREAT MARCH 100:100项细节导向任务用于评估具身AI agent

本文提出了一个名为“Great March 100 (GM-100)”的机器人学习评测基准,包含100个精心设计的、涵盖长尾行为的任务,旨在解决现有评测任务过于单一、无法全面评估机器人智能水平的问题。

2026-02-01 23:53:49 546

原创 【论文自动阅读】视频生成模型的Inference-time物理对齐 with Latent World Model

本文提出了一种在推理阶段利用潜在世界模型(Latent World Models)作为奖励信号来校准视频生成模型的方法,从而在不重新训练模型的情况下显著提升生成视频的物理合理性。

2026-02-01 23:49:38 537

原创 【论文自动阅读】快速视频生成的过渡匹配蒸馏

本文提出了一种名为“转换匹配蒸馏(TMD)”的新框架,通过模仿教师模型的去噪轨迹,将大型视频扩散模型蒸馏成高效的少步生成器,从而在保持视频质量的同时大幅提高生成速度。

2026-02-01 23:45:45 671

原创 【论文自动阅读】RoboBrain 2.0

本文介绍了 RoboBrain 2.0,这是一种专为物理世界任务设计的视觉-语言基础模型,旨在通过统一感知、推理和规划来解决复杂机器人任务。

2026-02-01 23:39:48 565

原创 【论文自动阅读】Goal Force: 教视频模型实现Physics-Conditioned Goals

本文提出了一种名为Goal Force的新框架,教会视频生成模型通过反向推理物理因果链(例如用球杆击球),来生成能够实现特定目标力(Goal Force)的视频,从而实现无需外部物理引擎的物理感知视觉规划。

2026-01-30 19:34:05 547

原创 【论文自动阅读】RoboBrain:从抽象到具体的机器人操作统一大脑模型

本文提出了RoboBrain,一个统一的机器人“大脑”模型,旨在将抽象的指令转化为具体的抓取、移动等动作,从而让机器人能更聪明地完成复杂任务。

2026-01-29 14:38:00 760

原创 【论文自动阅读】ACoT-VLA:VLA的Action CoT

本文提出了一种名为ACoT-VLA的新模型,让机器人在执行任务前先“在动作空间里思考”(即先规划粗略的动作路径),从而更精准地完成复杂操作。

2026-01-29 14:30:03 844

原创 【论文自动阅读】TT-VLA:通过Test-Time RL实现动态可变VLA

本文提出了一种名为TT-VLA的框架,让机器人在执行任务的过程中(测试时),利用即时的环境反馈(进度奖励)实时微调自己的策略,从而在遇到从未见过的环境变化时能自我调整并完成任务。

2026-01-29 14:21:06 956

原创 【论文自动阅读】CLARE:通过自主适配器路由与扩展实现VLA模型的持续学习

本文提出了一种名为CLARE的框架,让机器人能在不遗忘旧技能的前提下,通过自主添加微小的新模块来持续学习新任务,且不需要存储旧数据或依赖任务标签。

2026-01-29 13:45:07 464

原创 【论文自动阅读】ActiveVLA: 将主动感知注入VLA模型以实现精准三维机器人操控

本文提出了一种名为 ActiveVLA 的新框架,让机器人不再被动地“看”世界,而是能像人一样主动调整视角和焦距,从而在杂乱或有遮挡的环境中精准完成复杂的操作任务。

2026-01-29 13:36:53 795

原创 【论文自动阅读】SparseOccVLA: Bridging Occupancy and Vision-Language Models via Sparse Queries for Unified 4

本文提出了一种名为SparseOccVLA的自动驾驶模型,利用稀疏查询将视觉语义与语言模型结合,统一解决了场景理解、环境预测和路径规划问题。

2026-01-27 16:22:26 550

原创 【论文自动阅读】LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Predict

本文提出了一种名为LatentVLA的新框架,它通过让大模型学习“潜动作”来理解驾驶场景,并将这种理解“蒸馏”给传统的快速驾驶模型,在保持自动驾驶系统实时运行速度的同时,大幅提升了其应对复杂场景的智能水平和泛化能力。

2026-01-27 16:17:24 646

原创 【论文自动阅读】Action-Sketcher: From Reasoning to Action via Visual Sketches for Long-Horizon Robotic Manip

本文提出了一种名为Action-Sketcher的机器人框架,通过在“看”和“动”之间增加“思考”和“画草图”的步骤,让机器人能更可靠地完成复杂的长程任务。

2026-01-27 15:55:27 730

原创 【论文自动阅读】Much Ado About Noising: Dispelling the Myths of Generative Robotic Control

本文通过大量实验揭穿了生成式机器人控制策略(如扩散模型)之所以强大的“伪真相”,证明了其优势并非来自捕捉多模态分布,而是源于带监督的迭代计算和随机性注入,并提出了一种极简的两步迭代策略(MIP)即可达到同等效果。

2026-01-27 14:54:12 710

原创 【论文自动阅读】Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-traini

本文提出了一个名为GenieReasoner的机器人系统,通过一种新的“动作分词器”将复杂的连续动作转化为离散的“思维令牌”,让机器人既能像大模型一样进行深度思考和推理,又能精准地执行具体的物理动作。

2026-01-27 13:51:04 473

原创 【论文自动阅读】Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspecti

本文从算法角度出发,通过“高层规划”和“低层控制”这两个互补的层面,对基于学习的机器人操作方法进行了统一的梳理和分类。现在的机器人研究正处于从“专用模型”向“通用基础模型”转型的时期,但单纯的扩大模型规模(Scaling up)是不够的。分层的(高层想,低层做);具身的(结合3D空间和触觉);安全的(混合架构,不盲目信任AI)。

2026-01-26 17:46:45 886

原创 【论文自动阅读】RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied

本文构建了一个大规模的双臂移动操作数据集(RoboMIND 2.0),并提出了一种名为MIND-2的“快慢双系统”模型,旨在让机器人能通过视觉、语言和触觉更好地学会复杂的长程操作任务。

2026-01-26 16:19:16 576

原创 【论文自动阅读】RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation

本文构建了一个名为 RoboMIND 的大规模机器人操作数据集,涵盖多种机器人类型和复杂任务,旨在通过标准化的数据收集和丰富的标注,训练出能泛化到不同实体和场景的通用机器人模型。

2026-01-26 15:56:09 748

原创 【论文自动阅读】D4RT: Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

本文提出了一种名为D4RT的高效前馈模型,通过统一的Transformer架构,仅需一次处理就能从视频中重建出包含几何和运动信息的动态4D场景。

2026-01-26 15:52:55 571

原创 【论文自动阅读】Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scen

本文提出了一种名为“场景表示Transformer(SRT)”的新方法,它能像看几张照片就立刻脑补出整个3D场景的“大脑”一样,无需复杂的几何计算,就能在毫秒级时间内合成逼真的新视角画面。

2026-01-26 15:25:33 587

原创 【论文自动阅读】PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

本文提出了一种名为 PointWorld 的大规模预训练 3D 世界模型,仅需一张 RGB-D 图像和机器人的动作指令,就能预测场景中物体未来的变化,从而让机器人在从未见过的环境中完成复杂的操作任务。

2026-01-26 15:17:38 869

原创 【论文自动阅读】Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

本文提出了一种名为 Fast-ThinkAct 的框架,通过将复杂的思维过程压缩成紧凑的“潜意识”向量,让机器人既能像人类一样思考规划,又能像本能反应一样快速执行动作。

2026-01-23 15:57:07 488

原创 【论文自动阅读】LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning

本文提出了一种名为LLARVA的模型,通过将机器人的动作转化为2D视觉轨迹并与语言指令结合,让机器人能通过视觉和语言理解来学习和执行各种任务。

2026-01-23 15:07:04 491

原创 【论文自动阅读】ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

本文提出了一种名为ThinkAct的框架,让机器人先通过视觉和语言进行“思考”(规划),再执行动作,从而解决复杂任务。

2026-01-23 14:26:52 777

原创 Counterfactual VLA: Self-Reflective Vision-Language-Action Model with Adaptive Reasoning

本文提出了一种名为CF-VLA的自动驾驶模型,它能像人类一样在行动前“三思”,通过自我反思和修正错误计划来提高驾驶的安全性和准确性。

2026-01-23 14:20:32 762

原创 【论文自动阅读】SiLRI:Real-world Reinforcement Learning from Suboptimal Interventions

本文提出了一种名为SiLRI的算法,旨在让机器人在现实世界中通过学习人类不完美的干预操作来加速学习,同时利用强化学习超越人类的操作水平。

2026-01-21 22:12:30 558

原创 【论文自动阅读】CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinf

本文提出了一种名为CO-RFT的新方法,通过结合Offline RL和action chunk技术,在仅有少量demonstration数据的情况下,显著提升了VLA模型的执行成功率和泛化能力。

2026-01-21 15:56:48 875

原创 【论文自动阅读】VLAC:A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

本文提出了一种名为VLAC的模型,它能让机器人通过“看”和“理解”任务描述来给自己打分(奖励),从而在真实世界中通过自我尝试和犯错来学习如何完成各种复杂动作,而不需要人类为每个任务单独设计打分规则。

2026-01-20 21:46:32 859

原创 logioptions+软件问题解决

下载旧版APP。https://support.logi.com/hc/zh-cn/articles/4418699283607-Logi-Options进入界面选择macos10.15下载1.44.415778版本的我是macos15的系统。软件设置里关闭自动更新。然后在系统设置-网络-防火墙里把logioptions加上,不让他联网。

2026-01-20 11:49:55 288

原创 【论文自动阅读】Diffusion Reward: Learning Rewards via Conditional Video Diffusion

本文提出了一种名为“Diffusion Reward”的新框架,利用视频扩散模型从专家演示视频中学习奖励函数,从而指导强化学习智能体解决复杂的视觉操作任务。

2026-01-19 14:42:55 536

原创 【论文自动阅读】NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

本文提出了一种名为NeoVerse的4D世界模型,它能直接利用野外单目视频进行可扩展的训练,实现高质量的4D重建和新视角视频生成。

2026-01-16 15:44:34 793

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除