自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

格物致知

笃学尚行,至于至善。专注!专注!专注!

  • 博客(726)
  • 收藏
  • 关注

原创 【SANA-Streaming】实时流式视频编辑:混合扩散Transformer + 系统协同设计深度解析

实时流式视频编辑(Video-to-Video, V2V)是直播、游戏等交互式场景的关键需求,但时序一致性与推理吞吐的双重约束使其极具挑战。NVIDIA 联合 MIT/THU/NUS/HKU 提出 SANA-Streaming,通过算法-系统协同设计,在单张 RTX 5090 上实现 1280x704 分辨率、24 FPS 端到端实时视频编辑。

2026-06-19 16:52:19 236

原创 【PromptStereo】零样本立体匹配新范式:用结构与运动Prompt驱动迭代优化(CVPR 2026)

零样本(zero-shot)立体匹配的核心瓶颈在于迭代优化阶段:现有方法虽然利用了单目深度基础模型做特征提取和视差初始化,但GRU的有限表征能力无法充分利用这些先验。PromptStereo提出Prompt Recurrent Unit(PRU),直接继承Depth Anything V2的DPT解码器架构作为迭代优化器,并设计Structure Prompt和Motion Prompt两路提示信号引导优化方向。

2026-06-12 16:50:03 237

原创 【PromptStereo】零样本立体匹配新范式:用结构与运动Prompt驱动迭代优化(CVPR 2026)

零样本(zero-shot)立体匹配的核心瓶颈在于迭代优化阶段:现有方法虽然利用了单目深度基础模型做特征提取和视差初始化,但GRU的有限表征能力无法充分利用这些先验。PromptStereo提出Prompt Recurrent Unit(PRU),直接继承Depth Anything V2的DPT解码器架构作为迭代优化器,并设计Structure Prompt和Motion Prompt两路提示信号引导优化方向。

2026-06-12 16:48:41 190

原创 【PromptStereo】零样本立体匹配新范式:用结构与运动Prompt驱动迭代优化(CVPR 2026)

立体匹配深度估计零样本泛化Depth AnythingCVPR 2026Transformer## 摘要零样本(zero-shot)立体匹配的核心瓶颈在于迭代优化阶段:现有方法虽然利用了单目深度基础模型做特征提取和视差初始化,但GRU的有限表征能力无法充分利用这些先验。

2026-06-12 16:47:04 283

原创 【MASt3R-SLAM】从DUSt3R到MASt3R-SLAM:基于3D重建先验的实时稠密SLAM系统演进与深度解析

传统三维重建和SLAM系统严重依赖相机标定和显式特征匹配,在极端视角变化、弱纹理场景下频繁失败。NAVER Labs Europe和Imperial College London团队提出了DUSt3R/MASt3R/MASt3R-SLAM三阶段演进方案:DUSt3R首次实现端到端Transformer直接从图像对回归稠密3D点图(Pointmap);MASt3R在此基础上引入稠密局部特征头,将图像匹配重新定义为3D问题;

2026-06-11 22:32:43 238

原创 【MASt3R-SLAM】从DUSt3R到MASt3R-SLAM:基于3D重建先验的实时稠密SLAM系统演进与深度解析

匹配本质上是识别观测同一3D点的像素,因此3D几何上下文是必需的而非可选的。图 3:MASt3R在DUSt3R基础上增加稠密局部特征头,同时预测3D点图和匹配描述子。来源:[MASt3R] Fig 1相比DUSt3R的改进稠密局部特征头(Dense Local Feature Head):在Pointmap Head旁并行输出逐像素描述子,使用InfoNCE损失训练快速互惠匹配(Fast Reciprocal Matching):利用点图的3D一致性约束,实现量级提升的匹配速度为什么传统匹配方法不够?

2026-06-11 22:30:53 300

原创 【MANO】参数化三维手部模型:从1000次扫描到通用手部重建的数学原理与工程实践

手部重建是计算机视觉与人机交互的核心问题之一。MANO(hand Model with Articulated and Non-rigid defOrmations)通过对约1000个高精度三维手部扫描的统计学习,构建了一个紧凑的参数化手部模型:仅用10维形状参数和45维姿态参数即可表达任意人手的几何与运动。本文深入剖析其数学建模(PCA形状空间、姿态混合形变、线性蒙皮)、模型结构(778顶点/16关节/双层混合形变),以及PyTorch工程实现。

2026-06-10 21:08:36 298

原创 【RK3588+IMU】陀螺仪全栈开发:从LSM6DSR硬件接线到Linux IIO驱动到应用层数据读取的实战避坑指南

RK3588作为瑞芯微旗舰级ARM处理器(8核A76+A55),广泛应用于机器人、车载、VR/AR等场景,但其SoC内部未集成IMU,需外接I2C/SPI陀螺仪模块。本文基于实战项目,以LSM6DSR+I2C为例,梳理从硬件选型接线、设备树配置、Linux IIO驱动移植到应用层角速度读取的完整开发链路,并给出四类常见问题的排查方案。参考来源RK3588陀螺仪(IMU)开发实战。

2026-06-10 11:38:21 292

原创 【Vision Banana】感知即生成:图像生成模型作为通用视觉理解骨干的统一架构深度解析

Vision Banana是Google DeepMind提出的通用视觉模型,核心思想是"感知即生成"(Perception as Image Generation):在图像生成基座模型Nano Banana Pro上进行低比例指令微调,将所有视觉任务(语义分割、实例分割、度量深度、表面法线)统一为"生成一张RGB图像"的范式。

2026-06-09 14:13:35 540

原创 【TAPIR】任意点跟踪:逐帧初始化+时序精炼的两阶段点追踪架构深度解析

TAPIR(Tracking Any Point with per-frame Initialization and temporal Refinement)由Google DeepMind提出,是一个能够在视频中跟踪任意物理表面点的模型。其核心设计是两阶段管线:第一阶段通过全局匹配逐帧独立初始化候选轨迹,第二阶段通过局部相关性的时序深度卷积网络迭代精炼。

2026-06-09 10:22:59 248

原创 【VGGT】统一3D重建:单网络同时预测相机位姿、深度图、点云与3D轨迹的前馈Transformer架构深度解析

VGGT(Visual Geometry Grounded Transformer)是Meta Research提出的1.2B参数前馈Transformer,能在1秒内从1~100+张图像中同时推断相机参数、点云图、深度图和3D点轨迹。通过Alternating Attention机制(帧内与全局自注意力交替)替代传统Cross-Attention,在相机估计、多视图深度、稠密重建和3D跟踪四项任务上均达到SOTA,且无需迭代优化。论文发表于CVPR 2025。论文代码。

2026-06-08 22:13:27 328

原创 【VGGT-Ω】前馈式3D重建的规模化之路:Register Attention、自监督训练与10B参数Scaling Law深度解析

现有前馈式3D重建模型(如VGGT、DUSt3R、MASt3R)虽然摆脱了后优化流程,但模型规模和数据规模对重建精度的影响尚未被系统探索。VGGT-Ω 在架构、数据和训练三个维度同时做了规模化改进:引入 Register Attention 替代部分全局注意力以降低计算开销,用单一 Dense Head + Pixel Shuffle 替代多头 DPT 以节省显存,并构建了覆盖4M序列(含动态场景)的高质量标注流水线。

2026-06-08 20:20:22 271

原创 【OpenCV parallel_for_】并行框架源码深度解析:7种后端调度、线程池自旋等待、工作窃取与跨平台CPU Yield指令全拆解

OpenCV 的是其所有并行计算的统一入口,支持 7 种并行后端(TBB / HPX / OpenMP / GCD / WinRT / MS-Concurrency / pthreads),运行时可通过环境变量切换优先级或替换为自定义后端。本文从 OpenCV 4.8.0 源码()逐层拆解:后端选择优先级链、的嵌套检测与 nstripes 分配策略、pthreads 线程池的自旋等待-条件变量混合唤醒机制、的原子工作窃取调度、以及 x86/ARM64/RISC-V 三种架构的 CPU Yield 指令差异。

2026-06-05 12:13:13 366

原创 【World Models】李飞飞重新定义世界模型:基于POMDP的功能分类学(渲染器/模拟器/规划器)与大一统趋势深度解析

渲染器(Renderer,生成视觉画面)、模拟器(Simulator,输出符合物理规律的世界状态)、规划器(Planner,输出智能体动作决策)。本文从理论框架、三类模型的定义与代表产品、融合趋势与数据瓶颈四个维度进行深度拆解。原文“世界模型”(World Model)已成为 AI 领域被滥用最严重的术语之一。文生视频模型(如 Sora)自称世界模型,游戏生成引擎自称世界模型,物理仿真平台也自称世界模型。被称为"世界模型"的系统实际做的事情真的在"理解世界"吗?文生视频(Sora 等)

2026-06-05 11:29:22 301

原创 【World Models】李飞飞重新定义世界模型:基于POMDP的功能分类学(渲染器/模拟器/规划器)与大一统趋势深度解析

渲染器(Renderer,生成视觉画面)、模拟器(Simulator,输出符合物理规律的世界状态)、规划器(Planner,输出智能体动作决策)。本文从理论框架、三类模型的定义与代表产品、融合趋势与数据瓶颈四个维度进行深度拆解。原文“世界模型”(World Model)已成为 AI 领域被滥用最严重的术语之一。文生视频模型(如 Sora)自称世界模型,游戏生成引擎自称世界模型,物理仿真平台也自称世界模型。被称为"世界模型"的系统实际做的事情真的在"理解世界"吗?文生视频(Sora 等)

2026-06-05 10:58:59 668

原创 【KITTI Odometry】视觉里程计/SLAM基准测试全面解析:评估指标、数据集结构、传感器标定与排行榜深度拆解

KITTI Odometry Benchmark 是视觉里程计和 SLAM 领域最权威的户外驾驶场景基准测试,由 Geiger 等人于 2012 年 CVPR 提出。本文从数据集结构(22 条序列、39.2 km、41k 帧)、传感器配置(双目灰度/彩色相机 + Velodyne HDL-64E + OXTS RT 3003 GPS/IMU)、标定流程、评估指标的数学定义(平移误差EtransEtrans​和旋转误差ErotErot​。

2026-06-04 21:16:10 230

原创 【tbbparallel_reduce vs parallel_deterministic_reduce 原理区别(TBB核心)】

摘要:TBB的parallel_reduce和parallel_deterministic_reduce核心区别在于任务分片和归并方式。前者采用动态分片和随机归并,导致浮点运算结果不可复现;后者通过静态均分和有序归并,确保结果确定性。修改仅需替换函数名,配合现有编译配置(禁用快速数学、单线程Eigen、高精度输出)可实现完全可复现的SLAM优化结果,代价是性能降低5%~15%。该方案解决了算法调试和实验对比中的结果一致性问题,是研发场景的更优选择。

2026-06-04 20:25:04 355

原创 【Micro-WL Robot】桌面级轮腿机器人全栈解析:LQR平衡控制、SimpleFOC驱动与五连杆腿部机构源码深度拆解

Micro-Wheeled_leg-Robot 是一个桌面级双轮腿机器人开源项目(GitHub 3000+ Star),覆盖机械结构(STP 模型)、四块定制 PCB(ESP32 + L6234 + AS5600 + MPU6050)、以及基于 Arduino + SimpleFOC 的完整控制软件。本文从控制算法核心切入,逐层拆解其 LQR 平衡控制的四分量解耦实现、自适应腿高增益调度、轮离地检测与跳跃状态机,并梳理硬件拓扑与 WebSocket 遥控架构。代码。

2026-06-04 15:58:55 239

原创 【RADIO-ViPE】动态环境下的在线开放词汇语义SLAM:视觉-语言-几何紧耦合BA与自适应鲁棒核深度解析

RADIO-ViPE 是一个面向动态环境的在线语义 SLAM 系统,能够将任意自然语言查询与三维场景中的局部区域和物体关联起来(开放词汇语义定位)。与现有方法依赖标定好的 RGB-D 输入不同,RADIO-ViPE 直接处理原始单目 RGB 视频流,不需要相机内参、深度传感器或位姿初始化。其核心创新在于:将来自 RADIO 聚合基础模型的多模态嵌入(视觉+语言)与几何场景信息在初始化、优化和因子图连接三个层面进行紧耦合融合,并通过时序一致的自适应鲁棒核处理动态物体干扰。

2026-06-04 14:43:25 247

原创 【ACE-SLAM】场景坐标回归实时神经 SLAM:TriMLP 架构与隐式回环闭合

神经隐式 SLAM 方法(如 NICE-SLAM、SplaTAM)精度出色但帧率通常不到 1 FPS,无法用于实时应用。Imperial College 的 ACE-SLAM 首次将**场景坐标回归(Scene Coordinate Regression, SCR)**作为核心地图表示,通过训练轻量 MLP 将 2D 图像特征直接映射到 3D 全局坐标,实现29.7 FPS 严格实时运行,地图仅~1MB,且无需专用回环检测模块即可隐式处理回环闭合。论文代码(预告)

2026-06-03 14:51:06 356

原创 【KV-Tracker】Transformer 实时位姿跟踪:KV-Cache 加速多视图几何网络达 27FPS

多视图 3D 几何 Transformer(如 DUSt3R、MASt3R、π³)精度惊人,但全连接注意力的ON2O(N^2)ON2复杂度使其无法实时运行。Imperial College London 的 KV-Tracker 提出了一个无需额外训练的加速方案:在映射阶段缓存全局自注意力的 Key-Value 对,追踪阶段仅编码单帧并查询缓存,实现约15× 加速和27 FPS实时跟踪。

2026-06-03 14:26:22 602

原创 【SharpSLAM】无人机高速飞行下的物体级视觉 SLAM:GAN 去模糊与 3D 重建联合优化

无人机高速飞行时,运动模糊严重劣化视觉 SLAM 的特征提取和物体重建质量。Skoltech 的 SharpSLAM 将 DeblurGANv2 作为前端去模糊模块接入 DSP-SLAM(Deep Shape Priors SLAM)流水线,在不改变 SLAM 后端的前提下,将 3D 物体重建 F-score 从 82.9% 提升至 86.2%,SDF RMSE 从 17.2cm 降至 15.4cm。本文解析其三层系统架构、形状先验优化目标函数以及尺度标定方案。

2026-06-02 12:39:38 547

原创 【Khronos】动态环境时空度量-语义 SLAM:三层异步架构与4D地图构建深度解析

本文提出了一种名为 Khronos 的动态场景 4D SLAM 系统,通过时空局部一致性假设将复杂的联合优化问题分解为三个可异步执行的子任务:局部融合、全局优化和变化调和。系统在标准笔记本 CPU 上实现了 22 FPS 的实时性能,能够构建可查询任意时刻场景状态的 4D 时空地图。其核心创新包括:(1) 首次形式化定义了时空度量语义 SLAM (SMS) 问题;(2) 提出基于碎片(Fragment)的时空分解方法;(3) 采用光线追踪技术实现可靠的物体消失检测。实验表明,该系统在动态场景中长期运行中展现

2026-06-02 12:21:18 343

原创 【HaMeR】全Transformer架构的单目3D手部网格重建:ViT-H骨干+跨注意力MANO解码器源码深度解析

HaMeR(Hand Mesh Recovery)是 UC Berkeley 提出的全 Transformer 架构单目 3D 手部重建方法,采用 ViT-Huge(32层、1280维、16头)作为视觉骨干,配合 6 层跨注意力 Transformer 解码器直接回归 MANO 参数模型的手部姿态(6D旋转表示)、形状(10维β\betaβ)和相机参数。

2026-05-30 18:14:25 327

原创 【PathPainter】将图像生成模型的泛化能力迁移至具身导航:BEV可通行性推理与跨视角定位深度解析

PathPainter 将图像生成模型(如 Gemini)重新定位为 BEV 语义推理引擎,通过自然语言指令在鸟瞰图上直接生成可通行性掩码和目标位置,再结合 A* 路径搜索与跨视角定位(BEV-Patch-PF)实现端到端具身导航。该方法在 CityScale/Global-Scale 基准上展现强泛化能力(OOD 成功率 76.6%),并在 160 米室外无人机长距导航任务中验证了工程可行性。

2026-05-30 17:39:51 255

原创 【Structure PLP-SLAM】点-线-面三基元融合SLAM:从Plücker坐标到Graph-Cut平面重建的完整技术解析

Structure PLP-SLAM 是 DFKI 团队提出的多基元视觉 SLAM 系统(ICRA 2023),在 ORB 点特征基础上融合 LSD 线段检测与 PlaneRecNet 实例分割,实现点(Point)、线(Line)、面(Plane)三基元联合优化。

2026-05-28 16:03:47 475

原创 【DPVO】Deep Patch Visual Odometry:稀疏 Patch + 可微 BA 单目 VO 深度解析

DPVO:稀疏Patch匹配的高效视觉里程计 Princeton-VL团队提出的DPVO系统在NeurIPS 2023上展示了突破性的单目视觉里程计性能。该研究挑战了稠密光流在VO系统中的必要性,证明稀疏patch匹配+可微BA的组合不仅能达到SOTA精度(TartanAir上ATE-AUC 0.80),还能实现120FPS/2.5GB的高效运行,比DROID-SLAM快1.5-8.9倍且显存仅需29-57%。 核心创新包括: 稀疏表示:每帧随机采样96个3×3 patch作为基本单元,建模为带逆深度的小平

2026-05-25 13:49:54 463

原创 【Polaris-VIO】Docker 镜像跨硬件分发的隐藏陷阱:AVX-512、-march=native 与 CPU 指令集解耦边界

很多团队把"做成 Docker 镜像就和环境/平台/芯片架构解耦了"当成理所当然。本文从一段真实排查出发——本地 i5-14400F 跑某 VIO 镜像直接闪退——梳理三件事:① AVX-512 是什么、为什么 Intel 在消费级 CPU 上禁用了它;② Docker 容器到底解耦了哪几层、哪几层完全没解耦;③ Polaris VIO 项目里默认值带来的对外分发风险,以及我们为什么把基线改成x86-64-v3。GCC ≥ 11 / Clang ≥ 12 引入了 psABI 定义的微架构等级,比单独点名。

2026-05-22 17:05:23 1005

原创 【Tesla Optimus】灵巧手专利深度解读:前臂动力舱 · 线缆驱动 · 欠驱动手指系统取舍

特斯拉Optimus灵巧手专利技术解析 特斯拉近期公开的6项专利揭示了其Optimus机器人灵巧手的关键设计思路。该系统采用前臂集中驱动+线缆传力+欠驱动架构,具有以下特点: 动力系统前移:执行器集中在前臂"动力舱",通过线缆驱动手指,显著减轻末端重量 欠驱动设计:单个执行器控制多个关节,依靠机构自适应完成抓取动作 紧凑型反馈:采用磁体+霍尔传感器实现关节位置检测,替代传统编码器 工程挑战集中在: 前臂空间利用率与散热 线缆磨损与张力维持 手腕走线串扰问题 长期使用的可靠性保障 该设计体现了仿生学与工程优化

2026-05-20 14:19:37 557

原创 【Flow4DGS-SLAM】动态环境3DGS-SLAM:光流引导自运动分解与混合4D Gaussian深度解析(CVPR 2026)

Flow4DGS-SLAM(CVPR 2026,NUS)针对动态场景 3DGS-SLAM 的两大痛点——变形场训练慢和语义分割依赖——提出了全新的光流引导框架。核心思路是用 depth + 先验光流拟合相机自运动模型,不依赖任何语义类别,直接从残差中生成动态掩膜,同时提供更稳定的位姿初始化。动态区域用混合 4D Gaussian 表示(显式时序位置 + GMM 透明度/旋转 + KNN 刚性约束),相比基线 4DGS-SLAM 将建图速度提升17.6 倍,PSNR 提升4 dB。

2026-05-19 21:11:01 670

原创 【X-Restormer++】全天候图像恢复赛冠军方案:三项创新解析及对VIO/SLAM前端的工程价值

空间自适应输入缩放(不同区域差异化增强)、梯度引导边缘感知损失(保留几何结构而非只追求视觉清洁)、以及 24,500 对额外的 FoundIR+WeatherBench 数据。它的目标场景覆盖暴雨、大雪、浓雾、沙尘/雾霾等全谱系低能见度天气。对 SLAM/VIO 工程师而言,这类模型的正确定位不是"替代 SLAM 主干",而是可选前处理模块——何时开、何时关、开了是否真能提升 tracking stability,必须以 ATE/RPE 而非 PSNR 为指标实验验证。

2026-05-16 12:50:30 480

原创 【SANA-WM】分钟级世界模型:混合线性扩散Transformer与双分支相机控制深度解析

SANA-WM 是英伟达发布的 2.6B 参数开源世界模型,能在单张 GPU 上将一张图像和一条相机轨迹转换为 720p、时长一分钟的可控视频。混合线性 Diffusion Transformer(将 Gated DeltaNet 与稀疏 Softmax Attention 交替堆叠,将 961 帧长序列的显存复杂度从OT2O(T^2)OT2降至OD2O(D^2)OD2)、双分支相机控制。

2026-05-16 12:34:46 732

原创 【blender】blender skill安装于使用

这篇文章介绍了如何激活和使用Blender插件MCP Blender Bridge的步骤指南。主要内容包括:1)在Blender中安装插件并启用连接功能;2)说明MCP配置已写入设置文件,需重启生效;3)提供两种Blender安装方式(命令行安装或官网下载)。该指南简洁明了地列出了从插件安装到软件配置的完整流程,适合需要将MCP与Blender连接使用的用户参考。

2026-05-16 12:28:08 188

原创 【RoboSense AC2】全固态 dToF + 双目 RGB + IMU 超级传感器深度解析:芯片级硬件同步、±5mm 全域精度与机器人感知生态全面拆解

RoboSense AC2(Active Camera 2)是速腾聚创于 IROS 2025 发布的业界首款将全固态 dToF 激光雷达、双目 RGB 相机、IMU 三传感器硬件级融合于单一模组的感知系统,定位服务近场精操作机器人(机械臂、人形机器人、AGV)。核心指标:0.05–8 m 量程内全域 ±5mm 精度、120°×90° 超广视角(较传统 3D 相机提升 70% 以上)、<1ms 多传感器同步精度、100 kLux 强光抗干扰、IP65 防护。

2026-05-14 11:33:22 626

原创 【Kimera-Semantics】实时三维语义重建深度解析:Fast/Merged 双路积分、对数概率体素 Bayesian 融合与 ROS 全链路实现

Kimera-Semantics 是 MIT SPARK 实验室开源的实时三维度量-语义重建库(ICRA 2020,arXiv:1910.02490),依托 Voxblox 的 TSDF(Truncated Signed Distance Field)体素框架,将外部 2D 语义分割标签融入三维几何重建,输出带语义标注的全局 3D 网格。fast(~0.1 s/帧,速度优先)和merged(~1 s/帧,精度优先),核心差异在光线投射策略上。每个体素用对数概率向量。

2026-05-13 22:10:48 373

原创 【Kimera】MIT SPARK 实时度量-语义 SLAM 全栈解析:VIO + 鲁棒 PGO + 语义网格四模块架构与 EuRoC 实测深度剖析

Kimera(ICRA 2020,arXiv:1910.02490)是 MIT SPARK 实验室发布的开源 C++ 实时度量-语义 SLAM 库,由Kimera-VIO四个模块构成。与 ORB-SLAM、VINS-Mono 等系统的核心区别在于:在CPU 实时约束下同时完成高精度视觉惯性状态估计、全局一致轨迹优化、低延迟 3D 网格重建和语义标注。EuRoC 数据集上 Kimera-VIO 固定滞后平滑 ATE RMSE 最低达0.05 m。

2026-05-13 20:58:19 1071

原创 【Kimera-VIO】MIT SPARK 实时度量-语义 VIO/SLAM:六模块并行架构与智能因子图优化深度解析

Kimera-VIO 是 MIT SPARK 实验室开源的实时视觉惯性里程计(VIO)与度量-语义 SLAM 系统(arXiv:1910.02490)。CPU 实时运行无需 GPU将深度学习语义标签直接融入 3D 网格重建完整的闭环优化链路。系统由六个可独立运行的模块组成,通过线程安全队列并行推进,后端基于 GTSAM 智能因子(Smart Factors)实现边缘化隐式管理,闭环检测依托 DBoW2 词袋模型加 KimeraRPGO 鲁棒求解器完成全局一致轨迹估计。

2026-05-13 20:10:59 620

原创 【MAGS-SLAM】纯单目多智能体Gaussian SLAM:Sim(3)位姿图优化与占用感知融合深度解析

多智能体协同建图长期依赖 RGB-D 传感器,限制了其在轻量级机器人平台上的落地。MAGS-SLAM(arXiv 2605.10760)提出首个纯 RGB 多智能体 3D Gaussian Splatting SLAM 框架,核心思路是:每个智能体独立构建局部 Gaussian 子地图并发送紧凑摘要,通过 Sim(3) 位姿图优化消除单目尺度歧义,再用占用感知 Gaussian 融合合并子地图。

2026-05-13 15:44:46 454

原创 【RT-DETR】端到端实时目标检测:HybridEncoder 架构与无 NMS 推理深度解析

RT-DETR(Real-Time Detection Transformer)是百度在 CVPR 2024 提出的端到端目标检测框架,核心主张是:在实时推理速度下,用 Transformer 检测器超越 YOLO 系列精度。与传统 DETR 相比,RT-DETR 的关键突破在于 HybridEncoder——只在最小分辨率特征图上做 Transformer 自注意力,其余层走纯卷积 FPN+PAN,大幅降低计算量。

2026-05-07 11:17:40 422

原创 【cuVSLAM】NVIDIA开源视觉惯性SLAM:GPU全程流水线与创新架构深度梳理

cuVSLAM 是 NVIDIA 于 2026 年 3 月开源的视觉惯性 SLAM 系统(v15.0.0),定位为生产级机器人导航基础设施,支持单目/立体/RGBD/多相机四种传感器模式,并可融合 IMU。其最显著的特点是将特征检测、光流跟踪、Bundle Adjustment(BA)全部放在 GPU 上执行,前端跟踪与后端优化通过异步线程彻底解耦,前端可以持续高频运行而不被后端阻塞。仓库结构分为三层:公开 API 层()、25 个功能子模块(libs/

2026-05-02 14:34:34 365

联合标定(camrea,imu,ladar,vicon)_imu数据处理系统

联合标定原理及其实现

2021-01-19

data-and-code.zip

双目立体视觉重建精度上限评估,付代码与数据,可以直接使用或者学习。

2024-01-29

linux scientific network

scinetic internet surfing

2024-01-11

XPNusing recore and linux essential soft

scinetic internet surfing

2024-01-05

Pytorch学习记录分享13-OCR(Optical Character Recognition,光学字符识别)

OCR(Optical Character Recognition,光学字符识别)指提取图像中的文字信息,通常包括文本检测和文本识别。

2024-01-04

Pytorch学习记录分享12-CycleGAN 对抗生成网络变体

CycleGAN 对抗生成网络变体项目实例

2024-01-04

Pytorch学习记录分享11-PyTorch GAN对抗生成网络

GAN对抗生成网络实例

2024-01-03

标定iphone手机相机内参标定,标定板

标定板

2023-12-26

mnist 用于手写体训练与测试,这里包含完整的链接

https://blog.csdn.net/Darlingqiang/article/details/135138471?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22135138471%22%2C%22source%22%3A%22Darlingqiang%22%7D

2023-12-21

SuperPointPretrainedNetwork.zip

SuperPointPretrainedNetwork for slam frontend (conmtaing KLT )tracking without lower texture environment using by python , you can run it directly and without any change . datya in also in this repo files

2023-10-01

cpu_trace用与不他欧冠平台的性能测试工具

性能测试接口封装

2022-08-03

cmakelists文件架构组织

cmakelists文件架构组织

2022-08-03

eigen相关接口与基本单元测试

eigen相关接口与基本单元测试

2022-08-03

eigen测试工程,可以直接使用

eigen 测试工程 可以直接使用 方便eigen相关的基础的功能实测

2022-05-03

svo_pro_src.zip

svo_2

2022-01-14

svo_pro_single_src.tar.xz

svo_pro_single

2022-01-17

svo2_dependency.zip

svo pro 3rd party ros version

2022-01-14

fisheye_calibration.zip

OpenCV标定鱼眼镜头(C++)

2022-01-09

cmake_pro_ws.tar.xz

cmake project use to learn cmaklists

2021-12-17

draw_depthmap_pointcloud.rar

将深度图转换到某一坐标系下

2021-03-17

test_base_opencv.rar

基于opencv验证,opencv库函数的test测试工具,widows系统,opencv3.3

2021-02-25

ransac.rar

随机抽样一致性算法实现

2021-02-25

sdk_for_thinmanmini.rar

opencv链接,cmkelist小样,window下opencv配置直接运行,用于思路验证,点提取,点匹配,利用ceres求解

2021-01-31

draw_depth_map.rar

深度图彩色映射,可视化工具

2021-01-19

bp神经网络

自写bp神经网络主程序

2016-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除