- 博客(60)
- 收藏
- 关注
原创 Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment
Evo-1 这篇论文在 VLA 领域具有重要的意义。它证明了不盲目堆砌参数、不依赖海量机器人数据,而是通过精细的架构工程(Architectural Engineering)*和*符合梯度动力学的训练策略,完全可以在小参数模型上实现超越大模型的性能。这为未来具身智能走向端侧部署(On-device AI)指明了一条可行的技术路径。
2026-01-02 23:24:05
704
原创 Fully Autonomous Neuromorphic Navigation and Dynamic Obstacle Avoidance
提出了 Event RF 模型,模仿青蛙眼,不识别物体直接避障。实现了 2.3ms 的超低延迟,能躲避 10m/s 的高速物体,且能耗仅为传统的21%。开源了一个包含5万组数据的姿态校正数据集。
2025-12-25 15:02:16
1133
原创 python装饰器
简单来说,是 Python 中一种奇妙的语法糖。它的本质是一个,能够让你在不修改原函数代码的情况下,动态地给函数“增加新功能”。
2025-12-25 11:48:13
700
原创 Python 的类型提示(type hint)
Python 的类型提示(Type Hints)是 Python 3.5 引入的一项特性(通过 PEP 484),它允许开发者在代码中标注变量、函数参数和返回值的预期类型。这些提示不会在运行时强制执行(Python 仍是动态类型语言),而是用于静态分析工具(如 mypy、pyright)、IDE(如 PyCharm、VS Code)和代码文档化,帮助及早发现类型错误、提升代码可读性和维护性。
2025-12-24 23:36:49
425
原创 pytorch中项目配置文件的管理与导入方式
在深度学习中,我们经常需要调整batch_sizeoptimizer等参数。你需要反复修改代码中的变量,容易出错且难以版本控制。将代码(逻辑)与参数(配置)分离。修改参数只需改动 YAML 文件,无需触碰核心代码。
2025-12-24 23:08:03
1070
原创 RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation
RoboMamba,这是一个高效的 VLA 模型,它结合了视觉编码器与具有线性复杂度的 Mamba LLM,并具备视觉常识推理和机器人推理能力。基于我们的 RoboMamba,我们可以通过在几十分钟内微调一个简单的策略头(仅占模型的 0.1%),赋予模型新的操作技能。这一发现揭示了如何高效地赋予 VLA 模型操作能力,而不损害其固有的推理能力。最后,RoboMamba 在通用和机器人相关的评估基准的推理方面表现优异,并展示了令人印象深刻的姿态预测结果。关于局限性 (limitations)
2025-12-24 15:42:23
912
原创 OmniJARVIS Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following
提出了OmniJARVIS,这是一种新型的 VLA(视觉-语言-动作)模型,通过对多模态交互数据中的视觉、语言和动作进行统一 Token 化,实现了强大的推理能力和高效的决策能力。其核心思想包括:利用自监督学习在行为轨迹上训练行为分词器(轨迹编码器)*和*解分词器(模仿学习策略解码器);利用预训练的多模态语言模型(MLM),对 Token 化的多模态交互数据进行自回归建模。在开放世界 Minecraft 宇宙中的评估展示了其令人印象深刻的指令跟随能力。
2025-12-24 13:47:05
960
原创 python 字符串拼接
Python 的str(字符串)是每次用或其它方式“拼接**”都会创建新的字符串对象**,如果拼很多次,会造成很多临时对象,性能差。因此,(比如几段)用或 f-string 很方便;应用或字符串缓冲()或构建 list 再 join。
2025-12-23 22:28:02
942
原创 python 格式化输出详解(占位符:%、format、f表达式
要实现字符串的拼接,使用占位符是的一种高效、常用的方式。举个例子,下面是不使用占位符的一种写法,直接使用加号拼接字符串age = 24换成占位符,可以写成age = 24其中%s%d便是占位符,顾名思义,其作用就是替后面的变量站住这个位置字符串后面的%是一个特殊的操作符,该操作符会将后面的变量值,替换掉前面字符串中的占位符。对比两种写法,会发现使用占位符可以将字符串中用到变量集中在一起,方便查找和修改避免了反复使用引号,导致的引号对应识别困难能够更直接通顺的看出句子的内容。
2025-12-20 13:33:20
1085
原创 HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid
在这项工作中,研究了由物理人形机器人进行的视觉-语言引导的物体重排,这是人-场景交互(HSI)合成和现实世界人形机器人的基础技术。我们的系统是使用教师-学生蒸馏框架开发的。我们提出了关键见解,以促进利用特权状态进行的教师策略学习,并引入了一种新颖的主动感知技术(active perception technique)来支持视觉-语言-动作模型的学习。本文提出了一个新的HITR 数据集来支持我们的任务。在广泛的实验中,我们的 HumanVLA 模型在定量和定性评估中都展示了优越的结果。未来的工作。
2025-12-19 14:32:30
654
原创 DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution
本文介绍了机器人 MLLM 动态提前退出 (DeeR)框架,旨在根据机器人智能体遇到的每种情况的具体要求,动态配置 MLLM 的大小。具体来说,提出了一种具有多个中间出口的新型 MLLM 架构。此外,基于动作一致性为 DeeR 建立了提前终止标准,并通过数据集或在线交互来求解阈值。另外,精心设计了一种定制的训练方法,在该多出口框架内整合时序信息,以增强机器人控制。广泛的机器人实验表明,DeeR显著降低了 LLM 的计算成本和 GPU 显存使用量。
2025-12-18 15:10:39
696
原创 VLA-ADAPTER: AN EFFECTIVE PARADIGM FOR TINY-SCALE VISION-LANGUAGE-ACTION MODEL
提出了,这是一种用于 VLA 的新颖且高效的桥接范式。通过利用原始潜变量(Raw latent)*和*动作查询潜变量(ActionQuery latent),该方法有效地将多模态知识传输给策略网络以生成动作。实验表明,VLA-Adapter 使用微型主干网络就实现了SOTA的性能。即使在冻结 VLM的情况下,它也表现出强大的性能。此外,本文的方法显存占用低,推理速度快。缓解了 VLA 对大规模 VLM 和巨大训练成本的依赖,降低了部署 VLA 的门槛。冻结模型效果也可以在训练时,可以选择不更新。
2025-12-17 17:49:02
1156
原创 EdgeVLA: Efficient Vision-Language-Action Models
本文介绍了,这是一种新颖的 VLA 架构,专为在移动操作机器人或人形机器人(humanoids)*上高效部署而设计。通过*消除末端执行器预测的自回归需求并利用小语言模型(SLMs)的效率,EVLA 在推理时间上实现了显著加速,并在不牺牲模型性能的情况下减少了内存占用。应用场景从机械臂到人形机器人。
2025-12-17 11:38:20
1292
原创 TRIVLA: A TRIPLE-SYSTEM-BASED UNIFIED VISION-LANGUAGE-ACTION MODEL FOR GENERAL ROBOT CONTROL
TriVLA 展示了一种新颖的三系统架构,有效地将视觉-语言理解与动力学感知结合起来,增强了机器人捕捉静态信息和未来动态信息的能力。这种整合为机器人操作实现了更流畅和更具泛化性的控制策略。实验结果表明,TriVLA 在标准仿真基准和具有挑战性的现实世界任务上超越了最先进的模仿学习基线,突显了其在通用机器人控制中的广泛应用潜力。那么为什么是三系统架构呢?因为,不仅仅要看得懂,还要有做预判的能力。只有把这两者结合起来,机器人才能像人一样,既懂任务逻辑,又懂物理直觉。才可以捕捉静态和未来动态信息。
2025-12-10 22:36:12
476
原创 DexVLG: Dexterous Vision-Language-Grasp Model at Scale
本文提出了DexVLG,这是一个端到端的、与语言对齐的灵巧抓取生成模型,它利用了大型 VLM 的能力,并使用本文所合成的大规模数据集进行训练。DexVLG 在仿真的抓取成功率和部件准确率方面均达到了最先进的性能,并且在真实世界中抓取简单物体时达到了80%的成功率。安全性问题:由于 DexGraspNet 3.0 数据集中的训练姿态是使用悬浮手合成的,没有考虑手-臂的工作空间,因此 DexVLG 采样的许多姿态在真实世界中执行是不安全的。
2025-12-09 10:50:50
998
原创 Hijacking JARVIS: Benchmarking Mobile GUI Agents against Unprivileged Third Parties
序号现在的移动端 AI 助手(Mobile GUI Agents)依靠大模型(LLM/VLM)变得越来越强,能看懂屏幕帮用户干活(如点外卖、发帖)。 它们主要在干净的实验室环境里测试,到了现实世界(Real-world)非常脆弱。只要屏幕上出现恶意误导的信息(比如诈骗广告、虚假帖子),智能体很容易信以为真,从而执行危险操作(如转账、乱发评论)。这篇论文的核心在于揭示当前火热的“手机 AI 助手”(即 Mobile GUI Agents)的一个重大安全隐患:它们虽然聪明,但很容易被屏幕上的“坏内容”带偏。1:
2025-12-09 09:24:09
550
原创 DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge
提出了DreamVLA,这是一种新颖的视觉-语言-动作框架,它通过全面的世界知识预测实现了逆动力学建模,支持操作任务中的“感知-预测-行动”闭环。DreamVLA利用动态区域引导的知识预测,结合空间和语义线索,为动作规划生成紧凑且信息丰富的表征。作者还引入了一种分块结构化注意力机制,配合扩散 Transformer 解码器,以抑制来自跨类型知识泄露的表征噪声,从而实现连贯的多步动作推理。
2025-12-08 15:55:56
1070
原创 分词器(Tokenizer)-sentencepiece(把训练语料中的字符自动组合成一个最优的子词(subword)集合。)
SentencePiece 的词表是从语料统计出来的,如果语料本身就很小,那么 vocab_size 再大,模型也“统计不出”更多子词,因此: vocab_size 增加 ≠ 让模型 magically 学到更多词。在论文里看到 “We use BERT embeddings as features” 99% 指的是第 5 步的输出(上下文相关的动态向量),不是第 2 步那个死的词表。优点:简单、贪心、速度快 缺点:纯粹频率驱动,有时候会学出不合理的合并(比如把 “the” 拆成 “t”+“he”)
2025-12-07 11:40:10
1016
原创 RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-ActionModels
提出了RoboMonkey,这是一个新颖的测试时扩展框架,旨在增强视觉-语言-动作(VLA)模型的精度和鲁棒性。RoboMonkey 在分布内和分布外任务,以及新的机器人设置上都实现了显著的性能提升。我们的发现表明,通过“生成并验证”范式扩展测试时算力,为构建通用机器人基础模型提供了一条实用且有效的路径。一:计算开销与实时性(速度问题)方法虽然准,但是很“重”。因为要跑 VLA 模型生成动作,还要跑一个额外的 VLM 模型(裁判)来打分,这都需要显卡资源和时间。
2025-12-05 18:19:52
1215
原创 NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Drivi
车身上的传感器只能看局部(近处),而导航地图拥有全局(远处)信息,这两者以前没连通。这是本文解决的根本痛点。提出了NavigScene。它的核心价值在于“模拟类人驾驶环境”(Simulating human-like driving environments),即像人一样结合导航看路。让 VLM 能读懂导航提示。用强化学习让模型更懂导航重点。把导航思维真正植入到驾驶控制中。总的来说,本文主要是解决了“超视举”和“泛化”的问题。以前车子只能看见 100 米,现在通过导航能“推理”出几公里外的事。
2025-12-05 16:02:59
880
原创 Hume: Introducing System-2 Thinking in Visual-Language-Action Model
1. 总结:Hume 做到了什么?核心机制回顾:使用了Best-of-N策略。即“想出 N 个办法,根据价值估计挑最好的一个”。使用级联动作去噪。即“系统2给大方向,系统1负责细化和流畅执行”。性能超过了目前的 SOTA(最先进)模型。并且,在“复杂任务发生失败时”的表现,意味着 Hume 具有较强的鲁棒性或纠错能力(因为系统2会重新思考价值高的动作)。2. 局限性分析:还有什么没做好?局限一:采样的瓶颈 (Sampling Quality)原文解读:系统2是基于“从 N 个候选中挑最好的”。
2025-12-04 16:19:33
952
原创 3D-GENERALIST: Vision-Language-Action Models for Crafting 3D Worlds
本文的主要贡献状态转移范式 (St→at→St+1。这区别于传统的端到端(End-to-End)生成。正是这种序列化的特性,使得该框架具有极强的模块化能力,为下文提到的扩展性打下了基础。框架的模块化与扩展性 (Modularity & Extensibility)主要使用检索(Retrieval)的方式来获取资产(即从数据库里找现成的模型)。VLM 决定“放一把椅子” →从数据库检索一个椅子模型。VLM 决定“放一把椅子” →调用一个3D 生成模型。
2025-12-03 20:10:32
1260
原创 VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting
本文提出了一个轻量级的 VLA 模型,通过在隐藏潜空间(hidden latent space)*中预测动作来增强效率。我们的方法利用了一种新颖的*无分词器(tokenizer-free)*训练方法,该方法*同时预测多个动作,显著减少了训练和推理期间的计算需求。此外,我们的方法保持了与新兴且更强大的视觉语言模型(VLM)主干的兼容性。进一步地,我们提出了一个简单但有效(straightforward yet effective)*的动作集成算法,优化了动作采样。1 什么叫“在隐藏潜空间预测”?以前的方法。
2025-12-02 17:13:16
1099
原创 π0: A Vision-Language-Action Flow Model for General Robot Control
以前大家做机器人是“一个任务一个模型”,现在是“所有任务一个模型”。π0 证明了机器人预训练模型是可行的方案。π0机器人先看海量杂乱数据(预训练)= 学会了物理规律,学会了怎么抓东西不掉,学会了失败了怎么救回来(物理世界的“知识”)。然后通过高质量数据(后训练)= 学会了怎么像专家一样丝滑地叠衣服(物理世界的“对齐”)。作者说“我们把所有数据都扔进去了(combined all data)”。但到底是因为加了 OXE 数据变强了,还是因为加了自家数据变强了?如果多加点单臂数据,双臂任务会不会变差?
2025-12-01 22:36:47
1367
原创 RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION
文章构建了一个基础模型,验证了更大的模型 + 更多的数据 + 更好的架构(Diffusion)= 更强的智能在机器人领域也是适用的。作者提出了物理可解释的统一动作空间,解决了一个长期痛点:如何利用这就世界上现存的、乱七八糟的机器人数据?通过实验也证明了,只要保留数据的物理意义,不同构造的机器人(Franka, UR5, ALOHA)是可以互相“交流经验”的。RDT 优于现有的方法,不仅在灵巧双手操作能力和指令遵循方面表现出显著的提升,而且在少样本学习 (Few-shot learning)
2025-11-29 22:19:06
998
原创 Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers
模型还不够大” (Not distinctively large yet):作者承认,虽然 HPT 用了 1B 参数,但在 LLM(大语言模型)动辄 100B+ 的规模面前,这只能算“中等规模”。这也暗示了:机器人领域的数据量(Token 数)相比互联网文本,还是太少了。HPT 使用的是监督学习(也就是行为克隆 BC)。这意味着机器人最好也就是和人类演示者一样好,它无法超越人类(不像 AlphaGo 可以通过自我博弈变强)。这也解释了为什么可靠性低于 90%:因为人类演示数据里本身就包含噪音和失误。
2025-11-28 19:41:27
1157
原创 Octo: An Open-Source Generalist Robot Policy
以为加了腕部相机(手眼相机)效果会更好,结果 Octo 反而变笨了。原因:只有 27% 的训练数据有腕部视角。模型“看”得太少,没学会怎么处理这个视角剧烈变化的输入。启示:如果你要用 Octo,尽量优先用第三人称固定相机。扔一张“目标图片”给它,它做得很好;但说一句话给它,它可能听不太懂。原因:只有一半(56%)的数据有语言标签。很多时候模型是在通过“看图”来学习,而不是“听话”。Data is King(数据为王)。
2025-11-28 16:56:42
662
原创 GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
传统的机器人学习太依赖昂贵的机器人数据,难以扩展。GR-2借力打力,利用互联网上无穷无尽的人类视频,通过“预测未来画面”的预训练任务,让模型先学会物理世界的运作规律。在这个强大的“常识底座”上,只需喂给它少量的机器人数据,它就能迅速学会各种操作,并且即便换了环境、换了物体也能稳定工作。这为通用的具身智能(Embodied AI)指出了一条极具潜力的道路——从视频生成迈向机器人控制。
2025-11-27 16:08:03
848
原创 怎么理解标签平滑_Label Smoothing
标签平滑(Label smoothing),像L1、L2和dropout一样,是机器学习领域的一种正则化方法,通常用于分类问题,目的是防止模型在训练时过于自信地预测标签,改善泛化能力差的问题。正则化:给模型训练加一点“约束”或“惩罚”,防止模型在训练数据上学得太过完美(过拟合),从而在测试数据上表现不佳。假设你在训练一个模型:训练集:100 个样本,模型非常强大,比如深度神经网络,如果不加任何限制,模型可能学到:训练集每个样本都预测 100% 正确但训练中出现的偶然噪声也被“记住”
2025-11-26 23:48:07
1596
原创 pytroch的 张量操作。.dim(), .unsequeeze(), .gather(), .sum(), .ed(), .size()的用法
的概念是相似的,指向那个维度,表示在那个维度做操作,也就是让那个维度做出改变、要注意,改变一个维度的纬度值,其实也就是沿着另一个方向(例如dim=0,行维度改变,也就是沿着列的方向做操作)三维数组,可以看作是由多个矩阵堆叠而成的立方体,图中的例子展示了一个 3x4x5 的立方体,其中每个 5x5 的矩阵代表立方体的一个"层"。要注意,并不是行列宽了就是多维了,行数和列数要与维度区分开。五维数组,可以看作是由多个4D张量组成的矩阵,图中的例子同样没有具体数值,但可以理解为一个包含多个 4D 张量的集合。
2025-11-26 21:30:04
1387
原创 UNLEASHING LARGE-SCALE VIDEO GENERATIVE PRE-TRAINING FOR VISUAL ROBOT MANIPULATION
GR-1 将。
2025-11-25 20:08:15
1107
原创 Learning Universal Policies via Text-Guided Video Generation
出现了很多次Policy:强化学习中,策略指的是一个映射函数:πa∣s)=在状态s下选择动作a的概率UniPi 中的策略从初始帧 x0 + 语言任务指令 c生成未来视频 x1,x2,...,xH,再从视频生成动作序列,a0,a1,...,a**H在 UniPi 中,“策略”不只是动作选择规则,而是通过生成未来视频描述行为轨迹的策略,然后再推导可执行动作。展示了使用文本条件视频生成表示策略(policy)的实用性,表明这种方法可以:实现。
2025-11-25 17:49:01
915
原创 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
这篇文章的核心点之一是关于连续动作序列的建模,以保持一致性,还有一篇文章ACT也有体现。总的来说。提出,将用于机器人视觉-运动策略学习(visuomotor policy)。旨在解决传统策略学习在多模态动作、长序列一致性、高维动作空间和训练稳定性上的问题。核心方法将机器人动作预测建模为DDPM去噪过程初始动作从高斯噪声采样 → 多轮去噪 → 得到最终动作序列。动作预测是条件化的(conditional),以观测 Ot为条件。使用动作序列预测同时预测一段动作而非单步动作,保证时间一致性。
2025-11-24 23:13:48
1050
原创 RoboAgent:Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action
提出了一个能够在真实世界中进行多任务机器人操作、并且具备高样本效率和泛化能力的框架。通过语义场景增强快速扩增小规模机器人数据集训练一个多任务、语言条件控制的策略模型MT-ACT,能够吸收经过增强后的多模态数据。文章结合并改进了多个原本用于单任务策略的设计(例如,(动作块预测)、(时间聚合)),并证明这些方法在我们的多任务设置中仍然能显著提升性能。,对时间序列上的多个预测或数据进行整合处理,对预测动作在时间维度上做“汇总/平均/平滑”。
2025-11-23 22:24:28
894
原创 ALOHA Unleashed: A Simple Recipe for Robot Dexterity
提出了,1.在ALOHA 2 平台上收集了超过 26,000 个示范、2.使用这些数据训练了基于 Transformer 的、3.在真实和模拟环境中,充分展示了机器人灵巧行为。ALOHA Unleashed 证明,一个简单的方法就可以提升双臂灵巧操作的能力。局限性,策略每次只训练单一任务(其他方法可能使用单一模型权重,通过语言或目标图像条件化,实现多任务操作)、2.策略每 1 秒重新规划一次(对于高度需要快速反应的任务,这可能不够快)、3.每个任务都需要大量人工示范(数据收集耗时)未来工作。
2025-11-21 19:04:41
828
原创 Python中Namespace()函数
在 Python 中,是argparse模块提供的一个类,用于创建“命名空间对象”。它是一种,可以用来存储任意数量的属性。它的行为类似于。
2025-11-20 22:12:00
292
原创 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
ACT + ALOHA 的协同效果,可以低成本双臂机器人 + ACT 学习算法,从而可以在真实世界直接学习精细操作技能。在多个任务上的表现也说明了系统训练效率高、学习速度快、效果稳定。但是,并非所有精细任务都能完成(例如扣衬衫纽扣硬件限制:低成本机械臂精度有限,关节/力控制受限算法限制:某些任务需要超高精度、复杂触觉反馈或更高级规划低成本、开源:便于研究者复制和扩展示范价值:为精细机器人操作研究提供了可访问的实验平台推进方向:对高精度、多步骤、多模态操作的研究提供基础资源。
2025-11-20 17:57:58
888
原创 OpenVLA: An Open-Source Vision-Language-Action Model
总的来说OpenVLA具有开箱即用(out-of-the-box),能在不同机器人平台上直接完成控制任务。易于微调,可以通过参数高效微调快速适应新的机器人任务和设置。开源,提供模型和代码,有助于社区进一步研究。但是也存在一些局限性,输入感知受限:目前仅支持单张图像作为观察输入。现实中机器人可能有多张摄像头图像、力觉或关节状态等多模态感知。未来工作方向:支持多图像、观测历史以及更多感知输入。
2025-11-19 22:35:57
2245
原创 实验室gpu服务器管理方案
采用docker,一个必要的步骤就是需要安装nvidia-container-toolkit,这样才能实现容器内的gpu访问。支持gpu共享,用户环境内能够正常访问宿主机 GPU,支持 PyTorch、TensorFlow 等深度学习框架的 GPU 功能。考虑了lxd,lxc,docker,Determined等方案,由于一些客观因素,这次计划采用docker进行管理。2.进行配置,这里只针对docker了,如果想配k8s什么的,可以看一下官方文档。方便管理,可以轻松实现用户初始化,增删用户。
2025-11-18 21:22:55
1233
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅