xwill*-CSDN博客

原创 wandb的使用方法，以navrl为例

Weights & Biases（简称 wandb）是一个强大的机器学习实验跟踪工具，主要用于记录训练过程中的指标（如 loss、accuracy）、超参数、模型权重、图像/视频等数据。相比 TensorBoard，wandb 的优势在于云端同步、易于分享和团队管理，免费版对个人和小团队已经足够强大。最近在尝试复现修改NavRL项目的代码，有需求要分析一下奖励函数，因此就需要把一些新的变量放在wandb上，所以就有了这个笔记，之前自己并没有用过wandb，也算是一个总结。现在来训练一个真正的模型。

2026-01-09 20:28:35 589 1

原创 Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment

Evo-1 这篇论文在 VLA 领域具有重要的意义。它证明了不盲目堆砌参数、不依赖海量机器人数据，而是通过精细的架构工程（Architectural Engineering）*和*符合梯度动力学的训练策略，完全可以在小参数模型上实现超越大模型的性能。这为未来具身智能走向端侧部署（On-device AI）指明了一条可行的技术路径。

2026-01-02 23:24:05 989

原创 π∗0.6: a VLA That Learns From Experience

序号

2026-01-01 23:32:48 576

原创 Fully Autonomous Neuromorphic Navigation and Dynamic Obstacle Avoidance

提出了 Event RF 模型，模仿青蛙眼，不识别物体直接避障。实现了 2.3ms 的超低延迟，能躲避 10m/s 的高速物体，且能耗仅为传统的21%。开源了一个包含5万组数据的姿态校正数据集。

2025-12-25 15:02:16 1651

原创 python装饰器

简单来说，是 Python 中一种奇妙的语法糖。它的本质是一个，能够让你在不修改原函数代码的情况下，动态地给函数“增加新功能”。

2025-12-25 11:48:13 731

原创 Python 的类型提示（type hint）

Python 的类型提示（Type Hints）是 Python 3.5 引入的一项特性（通过 PEP 484），它允许开发者在代码中标注变量、函数参数和返回值的预期类型。这些提示不会在运行时强制执行（Python 仍是动态类型语言），而是用于静态分析工具（如 mypy、pyright）、IDE（如 PyCharm、VS Code）和代码文档化，帮助及早发现类型错误、提升代码可读性和维护性。

2025-12-24 23:36:49 480

原创 pytorch中项目配置文件的管理与导入方式

在深度学习中，我们经常需要调整batch_sizeoptimizer等参数。你需要反复修改代码中的变量，容易出错且难以版本控制。将代码（逻辑）与参数（配置）分离。修改参数只需改动 YAML 文件，无需触碰核心代码。

2025-12-24 23:08:03 1101

原创 RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation

RoboMamba，这是一个高效的 VLA 模型，它结合了视觉编码器与具有线性复杂度的 Mamba LLM，并具备视觉常识推理和机器人推理能力。基于我们的 RoboMamba，我们可以通过在几十分钟内微调一个简单的策略头（仅占模型的 0.1%），赋予模型新的操作技能。这一发现揭示了如何高效地赋予 VLA 模型操作能力，而不损害其固有的推理能力。最后，RoboMamba 在通用和机器人相关的评估基准的推理方面表现优异，并展示了令人印象深刻的姿态预测结果。关于局限性 (limitations)

2025-12-24 15:42:23 993

原创 OmniJARVIS Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following

提出了OmniJARVIS，这是一种新型的 VLA（视觉-语言-动作）模型，通过对多模态交互数据中的视觉、语言和动作进行统一 Token 化，实现了强大的推理能力和高效的决策能力。其核心思想包括：利用自监督学习在行为轨迹上训练行为分词器（轨迹编码器）*和*解分词器（模仿学习策略解码器）；利用预训练的多模态语言模型（MLM），对 Token 化的多模态交互数据进行自回归建模。在开放世界 Minecraft 宇宙中的评估展示了其令人印象深刻的指令跟随能力。

2025-12-24 13:47:05 1015

原创 python 字符串拼接

Python 的str（字符串）是每次用或其它方式“拼接**”都会创建新的字符串对象**，如果拼很多次，会造成很多临时对象，性能差。因此，（比如几段）用或 f-string 很方便；应用或字符串缓冲（）或构建 list 再 join。

2025-12-23 22:28:02 969

原创 python 格式化输出详解（占位符：%、format、f表达式

要实现字符串的拼接，使用占位符是的一种高效、常用的方式。举个例子，下面是不使用占位符的一种写法，直接使用加号拼接字符串age = 24换成占位符，可以写成age = 24其中%s%d便是占位符，顾名思义，其作用就是替后面的变量站住这个位置字符串后面的%是一个特殊的操作符，该操作符会将后面的变量值，替换掉前面字符串中的占位符。对比两种写法，会发现使用占位符可以将字符串中用到变量集中在一起，方便查找和修改避免了反复使用引号，导致的引号对应识别困难能够更直接通顺的看出句子的内容。

2025-12-20 13:33:20 1195

原创 HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid

在这项工作中，研究了由物理人形机器人进行的视觉-语言引导的物体重排，这是人-场景交互（HSI）合成和现实世界人形机器人的基础技术。我们的系统是使用教师-学生蒸馏框架开发的。我们提出了关键见解，以促进利用特权状态进行的教师策略学习，并引入了一种新颖的主动感知技术（active perception technique）来支持视觉-语言-动作模型的学习。本文提出了一个新的HITR 数据集来支持我们的任务。在广泛的实验中，我们的 HumanVLA 模型在定量和定性评估中都展示了优越的结果。未来的工作。

2025-12-19 14:32:30 731

原创 DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

本文介绍了机器人 MLLM 动态提前退出 (DeeR)框架，旨在根据机器人智能体遇到的每种情况的具体要求，动态配置 MLLM 的大小。具体来说，提出了一种具有多个中间出口的新型 MLLM 架构。此外，基于动作一致性为 DeeR 建立了提前终止标准，并通过数据集或在线交互来求解阈值。另外，精心设计了一种定制的训练方法，在该多出口框架内整合时序信息，以增强机器人控制。广泛的机器人实验表明，DeeR显著降低了 LLM 的计算成本和 GPU 显存使用量。

2025-12-18 15:10:39 746

原创 VLA-ADAPTER: AN EFFECTIVE PARADIGM FOR TINY-SCALE VISION-LANGUAGE-ACTION MODEL

提出了，这是一种用于 VLA 的新颖且高效的桥接范式。通过利用原始潜变量（Raw latent）*和*动作查询潜变量（ActionQuery latent），该方法有效地将多模态知识传输给策略网络以生成动作。实验表明，VLA-Adapter 使用微型主干网络就实现了SOTA的性能。即使在冻结 VLM的情况下，它也表现出强大的性能。此外，本文的方法显存占用低，推理速度快。缓解了 VLA 对大规模 VLM 和巨大训练成本的依赖，降低了部署 VLA 的门槛。冻结模型效果也可以在训练时，可以选择不更新。

2025-12-17 17:49:02 1244

原创 EdgeVLA: Efficient Vision-Language-Action Models

本文介绍了，这是一种新颖的 VLA 架构，专为在移动操作机器人或人形机器人（humanoids）*上高效部署而设计。通过*消除末端执行器预测的自回归需求并利用小语言模型（SLMs）的效率，EVLA 在推理时间上实现了显著加速，并在不牺牲模型性能的情况下减少了内存占用。应用场景从机械臂到人形机器人。

2025-12-17 11:38:20 1390

原创 TRIVLA: A TRIPLE-SYSTEM-BASED UNIFIED VISION-LANGUAGE-ACTION MODEL FOR GENERAL ROBOT CONTROL

TriVLA 展示了一种新颖的三系统架构，有效地将视觉-语言理解与动力学感知结合起来，增强了机器人捕捉静态信息和未来动态信息的能力。这种整合为机器人操作实现了更流畅和更具泛化性的控制策略。实验结果表明，TriVLA 在标准仿真基准和具有挑战性的现实世界任务上超越了最先进的模仿学习基线，突显了其在通用机器人控制中的广泛应用潜力。那么为什么是三系统架构呢？因为，不仅仅要看得懂，还要有做预判的能力。只有把这两者结合起来，机器人才能像人一样，既懂任务逻辑，又懂物理直觉。才可以捕捉静态和未来动态信息。

2025-12-10 22:36:12 497

原创 DexVLG: Dexterous Vision-Language-Grasp Model at Scale

本文提出了DexVLG，这是一个端到端的、与语言对齐的灵巧抓取生成模型，它利用了大型 VLM 的能力，并使用本文所合成的大规模数据集进行训练。DexVLG 在仿真的抓取成功率和部件准确率方面均达到了最先进的性能，并且在真实世界中抓取简单物体时达到了80%的成功率。安全性问题：由于 DexGraspNet 3.0 数据集中的训练姿态是使用悬浮手合成的，没有考虑手-臂的工作空间，因此 DexVLG 采样的许多姿态在真实世界中执行是不安全的。

2025-12-09 10:50:50 1059

原创 Hijacking JARVIS: Benchmarking Mobile GUI Agents against Unprivileged Third Parties

序号现在的移动端 AI 助手（Mobile GUI Agents）依靠大模型（LLM/VLM）变得越来越强，能看懂屏幕帮用户干活（如点外卖、发帖）。它们主要在干净的实验室环境里测试，到了现实世界（Real-world）非常脆弱。只要屏幕上出现恶意误导的信息（比如诈骗广告、虚假帖子），智能体很容易信以为真，从而执行危险操作（如转账、乱发评论）。这篇论文的核心在于揭示当前火热的“手机 AI 助手”（即 Mobile GUI Agents）的一个重大安全隐患：它们虽然聪明，但很容易被屏幕上的“坏内容”带偏。1：

2025-12-09 09:24:09 570

原创 DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

提出了DreamVLA，这是一种新颖的视觉-语言-动作框架，它通过全面的世界知识预测实现了逆动力学建模，支持操作任务中的“感知-预测-行动”闭环。DreamVLA利用动态区域引导的知识预测，结合空间和语义线索，为动作规划生成紧凑且信息丰富的表征。作者还引入了一种分块结构化注意力机制，配合扩散 Transformer 解码器，以抑制来自跨类型知识泄露的表征噪声，从而实现连贯的多步动作推理。

2025-12-08 15:55:56 1117

原创分词器（Tokenizer）-sentencepiece(把训练语料中的字符自动组合成一个最优的子词（subword）集合。)

SentencePiece 的词表是从语料统计出来的，如果语料本身就很小，那么 vocab_size 再大，模型也“统计不出”更多子词，因此： vocab_size 增加 ≠ 让模型 magically 学到更多词。在论文里看到 “We use BERT embeddings as features” 99% 指的是第 5 步的输出（上下文相关的动态向量），不是第 2 步那个死的词表。优点：简单、贪心、速度快缺点：纯粹频率驱动，有时候会学出不合理的合并（比如把 “the” 拆成 “t”+“he”）

2025-12-07 11:40:10 1104

原创 RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-ActionModels

提出了RoboMonkey，这是一个新颖的测试时扩展框架，旨在增强视觉-语言-动作（VLA）模型的精度和鲁棒性。RoboMonkey 在分布内和分布外任务，以及新的机器人设置上都实现了显著的性能提升。我们的发现表明，通过“生成并验证”范式扩展测试时算力，为构建通用机器人基础模型提供了一条实用且有效的路径。一：计算开销与实时性（速度问题）方法虽然准，但是很“重”。因为要跑 VLA 模型生成动作，还要跑一个额外的 VLM 模型（裁判）来打分，这都需要显卡资源和时间。

2025-12-05 18:19:52 1228

原创 NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Drivi

车身上的传感器只能看局部（近处），而导航地图拥有全局（远处）信息，这两者以前没连通。这是本文解决的根本痛点。提出了NavigScene。它的核心价值在于“模拟类人驾驶环境”（Simulating human-like driving environments），即像人一样结合导航看路。让 VLM 能读懂导航提示。用强化学习让模型更懂导航重点。把导航思维真正植入到驾驶控制中。总的来说，本文主要是解决了“超视举”和“泛化”的问题。以前车子只能看见 100 米，现在通过导航能“推理”出几公里外的事。

2025-12-05 16:02:59 898

原创 Hume: Introducing System-2 Thinking in Visual-Language-Action Model

1. 总结：Hume 做到了什么？核心机制回顾：使用了Best-of-N策略。即“想出 N 个办法，根据价值估计挑最好的一个”。使用级联动作去噪。即“系统2给大方向，系统1负责细化和流畅执行”。性能超过了目前的 SOTA（最先进）模型。并且，在“复杂任务发生失败时”的表现，意味着 Hume 具有较强的鲁棒性或纠错能力（因为系统2会重新思考价值高的动作）。2. 局限性分析：还有什么没做好？局限一：采样的瓶颈 (Sampling Quality)原文解读：系统2是基于“从 N 个候选中挑最好的”。

2025-12-04 16:19:33 971

原创 3D-GENERALIST: Vision-Language-Action Models for Crafting 3D Worlds

本文的主要贡献状态转移范式 (St→at→St+1。这区别于传统的端到端（End-to-End）生成。正是这种序列化的特性，使得该框架具有极强的模块化能力，为下文提到的扩展性打下了基础。框架的模块化与扩展性 (Modularity & Extensibility)主要使用检索（Retrieval）的方式来获取资产（即从数据库里找现成的模型）。VLM 决定“放一把椅子” →从数据库检索一个椅子模型。VLM 决定“放一把椅子” →调用一个3D 生成模型。

2025-12-03 20:10:32 1339

原创 VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting

本文提出了一个轻量级的 VLA 模型，通过在隐藏潜空间（hidden latent space）*中预测动作来增强效率。我们的方法利用了一种新颖的*无分词器（tokenizer-free）*训练方法，该方法*同时预测多个动作，显著减少了训练和推理期间的计算需求。此外，我们的方法保持了与新兴且更强大的视觉语言模型（VLM）主干的兼容性。进一步地，我们提出了一个简单但有效（straightforward yet effective）*的动作集成算法，优化了动作采样。1 什么叫“在隐藏潜空间预测”？以前的方法。

2025-12-02 17:13:16 1152 1

原创 π0: A Vision-Language-Action Flow Model for General Robot Control

以前大家做机器人是“一个任务一个模型”，现在是“所有任务一个模型”。π0 证明了机器人预训练模型是可行的方案。π0机器人先看海量杂乱数据（预训练）= 学会了物理规律，学会了怎么抓东西不掉，学会了失败了怎么救回来（物理世界的“知识”）。然后通过高质量数据（后训练）= 学会了怎么像专家一样丝滑地叠衣服（物理世界的“对齐”）。作者说“我们把所有数据都扔进去了（combined all data）”。但到底是因为加了 OXE 数据变强了，还是因为加了自家数据变强了？如果多加点单臂数据，双臂任务会不会变差？

2025-12-01 22:36:47 1441

原创 RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION

文章构建了一个基础模型，验证了更大的模型 + 更多的数据 + 更好的架构（Diffusion）= 更强的智能在机器人领域也是适用的。作者提出了物理可解释的统一动作空间，解决了一个长期痛点：如何利用这就世界上现存的、乱七八糟的机器人数据？通过实验也证明了，只要保留数据的物理意义，不同构造的机器人（Franka, UR5, ALOHA）是可以互相“交流经验”的。RDT 优于现有的方法，不仅在灵巧双手操作能力和指令遵循方面表现出显著的提升，而且在少样本学习 (Few-shot learning)

2025-11-29 22:19:06 1032

原创 Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

模型还不够大” (Not distinctively large yet)：作者承认，虽然 HPT 用了 1B 参数，但在 LLM（大语言模型）动辄 100B+ 的规模面前，这只能算“中等规模”。这也暗示了：机器人领域的数据量（Token 数）相比互联网文本，还是太少了。HPT 使用的是监督学习（也就是行为克隆 BC）。这意味着机器人最好也就是和人类演示者一样好，它无法超越人类（不像 AlphaGo 可以通过自我博弈变强）。这也解释了为什么可靠性低于 90%：因为人类演示数据里本身就包含噪音和失误。

2025-11-28 19:41:27 1184

原创 Octo: An Open-Source Generalist Robot Policy

以为加了腕部相机（手眼相机）效果会更好，结果 Octo 反而变笨了。原因：只有 27% 的训练数据有腕部视角。模型“看”得太少，没学会怎么处理这个视角剧烈变化的输入。启示：如果你要用 Octo，尽量优先用第三人称固定相机。扔一张“目标图片”给它，它做得很好；但说一句话给它，它可能听不太懂。原因：只有一半（56%）的数据有语言标签。很多时候模型是在通过“看图”来学习，而不是“听话”。Data is King（数据为王）。

2025-11-28 16:56:42 692

原创 GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

传统的机器人学习太依赖昂贵的机器人数据，难以扩展。GR-2借力打力，利用互联网上无穷无尽的人类视频，通过“预测未来画面”的预训练任务，让模型先学会物理世界的运作规律。在这个强大的“常识底座”上，只需喂给它少量的机器人数据，它就能迅速学会各种操作，并且即便换了环境、换了物体也能稳定工作。这为通用的具身智能（Embodied AI）指出了一条极具潜力的道路——从视频生成迈向机器人控制。

2025-11-27 16:08:03 882

原创怎么理解标签平滑_Label Smoothing

标签平滑（Label smoothing），像L1、L2和dropout一样，是机器学习领域的一种正则化方法，通常用于分类问题，目的是防止模型在训练时过于自信地预测标签，改善泛化能力差的问题。正则化：给模型训练加一点“约束”或“惩罚”，防止模型在训练数据上学得太过完美（过拟合），从而在测试数据上表现不佳。假设你在训练一个模型：训练集：100 个样本，模型非常强大，比如深度神经网络，如果不加任何限制，模型可能学到：训练集每个样本都预测 100% 正确但训练中出现的偶然噪声也被“记住”

2025-11-26 23:48:07 1674

原创 pytroch的张量操作。.dim(), .unsequeeze(), .gather(), .sum(), .ed(), .size()的用法

的概念是相似的，指向那个维度，表示在那个维度做操作，也就是让那个维度做出改变、要注意，改变一个维度的纬度值，其实也就是沿着另一个方向（例如dim=0，行维度改变，也就是沿着列的方向做操作）三维数组，可以看作是由多个矩阵堆叠而成的立方体，图中的例子展示了一个 3x4x5 的立方体，其中每个 5x5 的矩阵代表立方体的一个"层"。要注意，并不是行列宽了就是多维了，行数和列数要与维度区分开。五维数组，可以看作是由多个4D张量组成的矩阵，图中的例子同样没有具体数值，但可以理解为一个包含多个 4D 张量的集合。

2025-11-26 21:30:04 1417

空空如也

空空如也