The moon forgets-CSDN博客

原创临床VLM跨模态隐私风险：图像如何泄露报告

临床视觉语言模型的跨模态链接隐私风险研究研究揭示了临床视觉语言模型（VLM）在共享嵌入空间中保留的实例级图像-报告对应关系构成的新型隐私风险。通过对4种不同专化程度的VLM在40万+医学图像-报告对上的评估，发现最专化的模型（BioViL-T）能以15-50倍于随机概率的准确率重新关联脱标识化胸片与原报告。研究提出针对性差分隐私微调方法，仅对共享对齐层进行优化，在将跨模态重链接风险降低61.8%的同时，保持了图像侧诊断性能（AUROC仅下降0.2%）。这一发现强调了多模态医学AI开发中需平衡模型效用与隐私

2026-06-17 11:08:35 316

原创 BORA：灵巧VLA模型的离线-在线强化学习框架

本文提出BORA框架，针对视觉-语言-动作（VLA）模型在真实世界灵巧操作中的挑战，设计了一种离线到在线的强化学习后训练方法。BORA在离线阶段构建动作条件Critic，结合VLM认知token和动作块进行价值评估；在线阶段则冻结VLA基座并引入轻量级残差适应机制，通过人在回路干预修正执行误差。实验表明，BORA在5个复杂灵巧任务中平均成功率提升33%，未见物体泛化能力提升43%，显著优于纯模仿学习和传统RL基线。该工作为VLA模型在真实世界灵巧操作中的应用提供了有效解决方案。

2026-06-16 10:57:39 357

原创跨本体机器人学习：人类运动解码通用物理交互

论文摘要本文提出了Being-H0.5，一种面向跨本体泛化的基础视觉-语言-动作(VLA)模型。针对现有VLA模型在形态异质性和数据稀缺方面的局限性，研究团队创新性地采用了以人为中心的学习范式，将人类交互轨迹视为物理交互的"母语"。为实现这一目标，团队构建了UniHand-2.0数据集，包含超过35,000小时的多模态数据，覆盖30种不同机器人本体。方法上提出了统一动作空间，通过语义对齐将异构机器人控制映射为共享表示，使低资源机器人能够从人类数据中学习。模型采用混合Transformer架构，包含创新的混

2026-06-11 16:58:34 346

原创 AgiBot-World：百万轨迹数据集开创机器人操作新纪元

本文介绍了AgiBot World Colosseo平台，这是一个大规模机器人操作数据集和智能体训练系统。该平台包含超过100万条轨迹、217项任务，涵盖家庭、零售等五大场景，数据规模比现有数据集提升一个数量级。研究团队提出了GO-1通用策略模型，利用潜在动作表征实现跨模态预训练，在复杂任务上达到60%以上的成功率，比先前方法提升32%。该工作推动了通用具身智能的发展，提供了标准化数据采集流程和开源生态。

2026-06-10 16:16:56 391

原创动作思维链：VLA模型的新推理范式

ACoT-VLA：面向视觉-语言-动作模型的动作思维链方法本文提出ACoT-VLA框架，创新性地将思维链推理引入动作空间。传统VLA模型依赖语言或视觉中间推理指导动作生成，存在语义-运动学鸿沟问题。ACoT-VLA通过显式动作推理器(EAR)生成粗参考轨迹，结合隐式动作推理器(IAR)提取潜在动作先验，形成直接的动作空间指导。实验表明，该方法在LIBERO等基准上达到SOTA性能，验证了动作空间推理的有效性。核心创新：首次提出动作思维链(ACoT)概念开发显式-隐式双通道动作推理架构实现动作空间直

2026-06-09 11:35:54 304

原创 ABot-M0：基于动作流形学习的机器人操作VLA基础模型深度解析

摘要本文提出了ABot-M0机器人操作基础模型，通过整合六个开源数据集构建了UniACT-dataset（600万轨迹、9500+小时、20+本体），采用标准化预处理解决数据格式不一致问题。创新性地提出"动作流形假设"，设计动作流形学习（AML）机制，使DiT骨干直接预测低维平滑动作序列，并引入双流特征交互和可选3D空间模块。实验表明，该模型在LIBERO、LIBERO-Plus、RoboCasa和RoboTwin2.0任务上分别达到98.6%、80.5%、58.3%和81.2%的成功率，证明了通过公共数

2026-06-08 14:05:57 367

原创 DreamVLA：世界知识驱动的视觉-语言-动作新范式

DreamVLA提出了一种新型视觉-语言-动作（VLA）模型，通过预测综合世界知识（动态、空间和语义信息）而非完整图像帧来改进机器人操作任务。该模型采用动态区域引导的世界知识预测和块状结构化注意力机制，避免不同模态间的信息干扰，并利用扩散Transformer解耦动作表示。实验显示，DreamVLA在真实机器人任务中达到76.7%的成功率，在CALVIN基准上优于现有方法。其紧凑的表示方式减少了冗余计算，更符合人类认知方式。

2026-06-05 15:32:52 295

原创具身智能数据集调研2026

具身智能数据集调研摘要本文调研了当前主流的具身智能数据集，包括AgiBot World、RoboTwin 2.0、GraspVLA、Galaxea Open-World、Open X-Embodiment、VLABench和UniHand 2.0等。这些数据集在规模、场景覆盖、任务类型和数据来源等方面各具特色：AgiBot World强调真实场景长时间操控任务（2976小时）；RoboTwin 2.0专注双臂协作（50+任务）；GraspVLA是首个十亿级抓取数据集；Open X-Embodiment整合

2026-06-01 18:27:43 620

原创即插即用的OCC结果增强模型 TT-Occ

本文提出TT-Occ框架，通过3D高斯泼溅实现测试阶段自监督3D占据预测。该方法将几何信息与VLM语义特征对齐，分别跟踪动静态高斯点，并引入三边径向基函数平滑结果。实验表明该方法无需标注数据或先验信息，能灵活预测3D占据。虽然精度尚待提升，但展现了3DGS在感知任务中的应用潜力。

2025-12-15 11:50:29 839

原创点云分割新SOTA-多模态自监督预训练模型Concerto

摘要： Concerto提出了一种联合2D-3D自监督学习框架，通过结合3D模态内自蒸馏与2D-3D跨模态协同训练，学习更丰富且连贯的空间表征。实验表明，多模态联合训练优于单模态方法，在多个场景理解任务中达到SOTA性能。此外，Concerto扩展了时序点云理解任务，并通过线性投影至CLIP语言空间实现开放世界感知。该方法以简洁架构验证了多模态自监督的潜力，为点云感知提供了数据驱动的新思路。

2025-12-15 11:47:01 972

原创 Neural Kernel Surface Reconstruction

本文提出一种从大规模稀疏噪声点云重建3D隐式曲面的新方法Neural Kernel Surface Reconstruction (NKSR)。该方法基于神经核场(NKF)，通过使用紧凑支持核函数实现内存高效线性求解，支持大场景重建；通过梯度拟合提升抗噪能力；并降低训练条件，允许任意数据集联合训练。核心创新包括：1)基于梯度的核函数提升抗噪性；2)显式层级体素结构确保多尺度一致性。模型通过预测稀疏体素层级和核函数，求解线性系统获得隐式曲面，并引入掩码模块消除虚假几何。实验表明该方法能处理域外输入、混合训练数

2025-11-19 17:24:27 1140

原创 GS-Occ3D

本文提出GS-Occ3D，一种基于高斯曲面模型的纯视觉3D场景重建方法，旨在解决现有基于Mesh方法在自动驾驶场景中的局限性。该方法通过八叉树结构实现分层空间划分，结合动态目标运动状态捕捉和时序聚合处理，有效提升了重建精度和效率。实验结果表明，该方法在复杂室外场景中表现优异，尤其适用于纹理较弱和长视距的高速场景。通过帧聚合和射线传播策略，显著改善了动态目标重建质量，为自动驾驶领域提供了可靠的纯视觉解决方案。

2025-11-10 15:59:19 681

原创 GaussTR

本文提出GaussTR框架，将3D场景表示为离散高斯分布集合并与视觉基础模型(VFM)对齐，实现自监督3D空间理解。该模型通过Transformer预测高斯参数，利用高斯溅射将3D特征投影到2D视图与VFM特征对齐，无需显式标注即可实现开放词汇占用预测。实验表明，GaussTR在零样本任务中达到SOTA性能，显著提升了3D场景理解的泛化能力。核心创新包括：1)基于高斯分布的离散场景表征；2)与VFM对齐的自监督训练；3)高效的开放词汇预测能力。

2025-10-15 11:19:11 781

原创 Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving

由于点云的稀疏性，很容易将空洞误以为是"free"，因此本文采用叠帧数据下的射线广播的方法，如图a所示，如果该点位置反射了来自雷达的射线，则定义为"occupied"，若an该点被射线o穿透，则定义为"free"，除此之外，则定义为"unobserved"。因此本文利用点云和其分割结果重建高质量的Occ真值，并解决了几个关键问题：1）点云稀疏性问题，2）遮挡问题，3）点云与图像之间的对齐问题。其中，nuscenes数据集的标注范围为[-40m, -40m, -1m, 40m, 40m, 5.4m]；

2025-08-05 11:07:17 1200

原创通用障碍物调研

在调研到的方法中，可以实现通用障碍物检测大致功能的包括了freespace的分割，open set/增量学习(包含类别信息)，无差别检测(不包含类别信息)，想要在轻量化的基础之上保障检测的精准性是一件极具挑战的事情。col-wise的检测：好处在于：无差别障碍物检测，对于我们来说，检测出最近的障碍物是第一需求的话，这种技术路线很适配；方法虽然比较老，但是一些通用方法的迭代发展，完全可以与之结合以提升性能；

2025-08-01 19:51:29 1646 5

原创 YOLOv9

在yolov9的源码中，提供了三种训练方式，分别对应单独主干训练，结合一条辅助分支训练，结合两条辅助分支训练，最高使用3+3+3个检测头计算loss，对应不同尺度的网络，使用对应的权重融合策略即可，以yolov9-c为例，：随着网络的不断加深，所提取得到的特征信息越来越语义化，越接近于下游的监督真值，信息丢失(提纯)的现象就越严重，但是作为一个主干网络或对于上游任务而言，应当不失偏颇地尽可能多地提取到图像地各种信息。pc测试，非量化(rknn_toolkit2)首先需要先提理论：信息损失。

2025-08-01 19:38:41 534

原创 SAM2 : Segment Anything in Images and Videos

但是不同于SAM，需要分割的目标在视频中可能会出现遮挡，导致某些帧上可能不存在有效的目标，为了支持这种新的输出模式，SAM2添加了一个额外的头来预测当前帧是否存在有效的目标(基于mask和IoU的输出token完成)。我们将 8 帧的每个序列的最大mask数限制为 3 个随机选择的mask数。SAM2 将时间位置信息嵌入到 N 个最近帧的内存中，允许模型表示短期对象运动，而不是提示帧的运动，因为来自提示帧的训练信号更稀疏，并且更难适配到推理过程中，提示帧可能来自与训练期间看到的非常不同的时间范围。

2025-08-01 19:19:54 1794

原创 SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

然而SAM2在预测后续帧的mask时，经常忽略运动信息，导致目标在快速移动或交互复杂的情况下不准确，在目标拥挤的场景中这种现象尤为明显，而SAM2倾向于优先考虑目标的外观相似性，而不是空间和时间的一致性，最终导致了跟踪错误。为了解决这一问题，我们提出将运动信息融合到SAM2的预测过程中，通过利用物体的历史运动轨迹，增强模型对于遮挡的相似物体间的跟踪能力。并不是非常稳健的指标，尤其是在存在相似目标相互遮挡的拥挤场景中，为此我们引入了一个额外的运动模型来跟踪目标的运动，并提供额外的运动分数来帮助选择mask。

2025-08-01 19:14:10 855

原创 Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction

根据上述观察结果，我们首先将高度分解为不同的区间 I = {[1，4]，[5，8]，[9，16]}，然后在高度区间对特征进行分解，得到三个具有不同语义信息的子空间（L、M 和 H）。为了有效捕捉特定高度范围内的特征，我们利用高度mask剔除冗余的特征点，从而生成高度感知的特征图。并将其投影至对应高度子空间中。

2025-08-01 18:58:08 708

原创 Scene as Occupancy

OCCNet采用了级联的方式（解码过程被分为多个阶段，每个阶段都负责恢复特定的信息），通过多个级联阶段的迭代，从鸟瞰图特征中解码3D占据特征。OccNet则在两者间寻求一个平衡点，先通过BEVFormer的encoder得到带有时序信息的BEV特征，再通过级联的decoder恢复3D占据特征。将前一帧的特征通过当前帧的参数进行变换，对于典型的自注意力机制，每一个query都需要与所有的key和value进行匹配，在3D特征下，这需要消耗大量的算力。不同层级的decoder负责恢复不同高度尺度的信息。

2025-08-01 18:57:13 422

原创 AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Spla

本文提出了一种自动化的开放语义占据注释方法，该方法通过视觉-语言模型对特征图进行引导，以生成语义占据注释。设计了语义感知的高斯作为中心几何描述符，并且提出了一种累计高斯-体素的拼接算法，从而实现了有效且高效的占位注释。

2025-08-01 18:55:52 1321

原创 ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and

引入了一种采用深度去噪的占据感知自适应提升机制，以改进2D到3D特征变换的鲁棒性，并减少对深度先验的依赖。利用共享语义原型来共同约束2D和3D特征，从而加强3D特征和其原始2D模态之间的语义一致性。与基于置信度和类别的采样策略相辅相成，以应对 3D 空间中的长尾挑战。为了减轻在语义和光流联合预测的编码负担，提出了一种基于BEV基于体积代价的预测方法，该方法通过代价体积将光流和语义特征链接起来，并采用分类-回归监督方案来处理动态场景中变化的流尺度。

2025-08-01 18:14:33 984

原创 DL环境捉虫

一些开源工程的本地环境部署虽然不麻烦，但是总会遇到一些问题，本文旨在记录一些博主遇到的问题，二次遇到不用再重新Google和翻issue~

2025-08-01 16:30:04 382

原创 Offboard 3D Object Detection from Point Cloud Sequences

通过连续帧的信息来辅助进行3D检测，专注于离线的3D自动标注任务，与车载算法相比，遥遥领先。

2024-12-10 10:27:26 1212

原创 segment-anything-fast pytorch官方给出的优化版本

使用了许多新发布的功能，将Meta原始的SAM纯粹重写为PyTorch，并没有损失准确性：- Torch.compile PyTorch的原生JIT编译器，提供快速、自动融合PyTorch操作的功能- GPU量化加速采用降低精度操作的模型- Scaled Dot Product Attention (SDPA) Attention的新型、内存高效实现- Semi-Structured (2:4) Sparsity 使用更少的位数存储权重和激活的模型加速- Nested Tensor 高度优化的、用

2024-10-17 17:36:23 1015

空空如也

空空如也