自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6457)
  • 资源 (35)
  • 收藏
  • 关注

转载 VGGT再升级!复旦 & 华为新作DynamicVGGT:自动驾驶4D场景重建的动态点云图

因为存在显著的时间变化、移动物体的干扰以及复杂的场景动态,现有的前馈式3D模型虽然在静态场景重建方面表现良好,但在处理动态场景时却力不从心。我们的目标是以动态且连贯的方式,在前馈式3D模型中模拟点的运动轨迹。此外,我们还设计了“动态3D高斯散布单元”,该单元能够利用可学习的运动参数,在场景变化的背景下预测点的高斯速度,从而精确地描述点的动态运动。这些结果证实,即使在具有挑战性的现实世界运动和光照变化下,所提出的动态公式也能有效增强跨视图一致性和场景完整性,突显了我们的前馈框架在动态4D感知方面的可扩展性。

2026-03-30 07:04:04 2

转载 ICLR 2026 开源 | PAGE-4D:首个VGGT动态场景4D重建框架,速度无损、精度全面SOTA!

,未增加计算成本。在动态场景渲染应用中,将PAGE-4D重建的点云作为4D-Gaussian splatting框架的初始化,在Nerfie基准测试上实现了优于现有前馈3D重建模型的渲染性能,展现了良好的鲁棒性和泛化能力。广泛的实验表明,PAGE-4D在动态场景中始终优于原始VGGT,在相机姿态估计、单目和视频深度估计以及密集点云地图重建等任务上均取得了卓越的成果。重要的是,PAGE-4D展示了通过有效的解耦策略,即使在有限的动态数据下也能实现强大的泛化能力,为可扩展和高效的4D场景理解铺平了道路。

2026-03-29 00:01:47 19

转载 告别初代渲染!3DGS风向突变,看最新顶会上的研究趋势

知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。:3DGS早已脱离初代范式,依托几何接地、时序统一、工程压缩与多模态融合四大方向的密集突破,未来将逐步取代NeRF成为三维重建主流,并在自动驾驶、机器人、AR/VR、数字孪生等领域成为标配三维表示,技术重心也全面转向几何、物理、语义一体化的实用化创新。

2026-03-28 00:02:21 41

转载 镜面测量不再难!PMD最新综述:非接触高精度,三维形貌一键重建!

近年来,面向大陡度、大尺寸自由曲面镜面物体,偏折术得到广泛研究,包括莫尔偏折术、朗奇法、基于结构照明的相位测量偏折术(PMD)、激光扫描偏折术等。本文综述了PMD的条纹生成、相位计算、几何标定、斜率积分等关键技术,介绍了DPMD、MPMD等改进方法,总结了影响测量精度的核心因素,并展望了未来发展方向。白光干涉、波长扫描干涉、多波长干涉可测量不连续表面,但受视场、扫描范围与合成波长限制,多用于表面光洁度测量而非面形测量,难以适配大陡度、大尺寸表面。逐像素计算绝对相位,可直接测量不连续、孤立镜面物体。

2026-03-28 00:02:21 17

原创 CVPR‘26 开源 | 大规模LoD-3DGS渲染帧率SOTA!告别解码与遍历!

然而在超大场景中,为保证精细几何与外观表达,往往需要生成海量高斯基元,尽管现有基于细节层次(LoD)的 3DGS 方法通过层级结构简化渲染负载,但仍存在两个明显缺陷:多数方案依赖逐层串行遍历,带来严重的同步开销与计算延迟;,全程无需层级遍历与额外解码,渲染流水线更轻量高效。抛弃逐层遍历,通过两级并行过滤器一次性选取最优高斯子集,并利用提出的 GTC 度量自适应剔除冗余高斯 - 瓦片对,无需逐场景调参、不依赖层级遍历,在保持高质量重建的同时,实现超低延迟、超高帧率、低内存占用的大规模场景实时渲染。

2026-03-27 07:04:39 166

原创 CVPR‘26 开源 | 大规模LoD-3DGS渲染帧率SOTA!告别解码与遍历!

然而在超大场景中,为保证精细几何与外观表达,往往需要生成海量高斯基元,尽管现有基于细节层次(LoD)的 3DGS 方法通过层级结构简化渲染负载,但仍存在两个明显缺陷:多数方案依赖逐层串行遍历,带来严重的同步开销与计算延迟;,全程无需层级遍历与额外解码,渲染流水线更轻量高效。抛弃逐层遍历,通过两级并行过滤器一次性选取最优高斯子集,并利用提出的 GTC 度量自适应剔除冗余高斯 - 瓦片对,无需逐场景调参、不依赖层级遍历,在保持高质量重建的同时,实现超低延迟、超高帧率、低内存占用的大规模场景实时渲染。

2026-03-27 07:04:39 25

转载 10万lux强光也不怕!48米量程+35mm精度!海思×迈尔微视全栈dToF重塑机器人3D感知

不过,尽管dToF技术凭借高精度和强抗干扰能力,被视为3D感知的未来走向,但要大规模应用仍面临诸多挑战,比如SPAD与TDC的高集成度、低功耗设计,提升光子探测效率、阵列分辨率与良率,以及降低制造成本等都是待突破的方面。为此,上海海思对激光雷达所必需的VCSEL、SPAD、LDD以及MPD这四颗核心芯片,进行统一的架构设计与深度协同,实现了架构和功能的互相成就,在提升系统集成度和性能的同时,简化了客户的板级设计,降低了技术门槛,加速产品上市,完美解决这一痛点难题。,远优于业内常见的1ns。

2026-03-25 09:40:30 21

转载 CVPR‘26 开源| Rex-Omni检测万物:目标检测新范式

在这项工作中,我们介绍了Rex-Omni,一个拥有30亿参数的MLLM,它系统地解决了基于MLLM的目标检测所面临的挑战。关键的是,我们的分析验证了,虽然SFT提供了坚实的基础,但基于GRPO的后训练对于纠正SFT引发的行为缺陷(如重复和过大框预测)至关重要,这是构建鲁棒的基于MLLM的检测器的一项关键贡献。关键的是,Rex-Omni是在零样本设置下实现这一点的,这表明基于MLLM的检测方法在高度精确的边界框定位并非唯一关键因素时,确实可以超越传统的基于回归的模型。,为大家着重分享他们团队的工作。

2026-03-25 09:40:30 34

转载 CVPR‘26 开源| Rex-Omni检测万物:目标检测新范式

在这项工作中,我们介绍了Rex-Omni,一个拥有30亿参数的MLLM,它系统地解决了基于MLLM的目标检测所面临的挑战。关键的是,我们的分析验证了,虽然SFT提供了坚实的基础,但基于GRPO的后训练对于纠正SFT引发的行为缺陷(如重复和过大框预测)至关重要,这是构建鲁棒的基于MLLM的检测器的一项关键贡献。关键的是,Rex-Omni是在零样本设置下实现这一点的,这表明基于MLLM的检测方法在高度精确的边界框定位并非唯一关键因素时,确实可以超越传统的基于回归的模型。,为大家着重分享他们团队的工作。

2026-03-25 09:40:30 17

转载 CVPR‘26 开源| Rex-Omni检测万物:目标检测新范式

在这项工作中,我们介绍了Rex-Omni,一个拥有30亿参数的MLLM,它系统地解决了基于MLLM的目标检测所面临的挑战。关键的是,我们的分析验证了,虽然SFT提供了坚实的基础,但基于GRPO的后训练对于纠正SFT引发的行为缺陷(如重复和过大框预测)至关重要,这是构建鲁棒的基于MLLM的检测器的一项关键贡献。关键的是,Rex-Omni是在零样本设置下实现这一点的,这表明基于MLLM的检测方法在高度精确的边界框定位并非唯一关键因素时,确实可以超越传统的基于回归的模型。,为大家着重分享他们团队的工作。

2026-03-25 09:40:30 12

转载 CVPR‘26 开源| Rex-Omni检测万物:目标检测新范式

在这项工作中,我们介绍了Rex-Omni,一个拥有30亿参数的MLLM,它系统地解决了基于MLLM的目标检测所面临的挑战。关键的是,我们的分析验证了,虽然SFT提供了坚实的基础,但基于GRPO的后训练对于纠正SFT引发的行为缺陷(如重复和过大框预测)至关重要,这是构建鲁棒的基于MLLM的检测器的一项关键贡献。关键的是,Rex-Omni是在零样本设置下实现这一点的,这表明基于MLLM的检测方法在高度精确的边界框定位并非唯一关键因素时,确实可以超越传统的基于回归的模型。,为大家着重分享他们团队的工作。

2026-03-25 09:40:30 6

转载 CVPR‘26 开源| Rex-Omni检测万物:目标检测新范式

在这项工作中,我们介绍了Rex-Omni,一个拥有30亿参数的MLLM,它系统地解决了基于MLLM的目标检测所面临的挑战。关键的是,我们的分析验证了,虽然SFT提供了坚实的基础,但基于GRPO的后训练对于纠正SFT引发的行为缺陷(如重复和过大框预测)至关重要,这是构建鲁棒的基于MLLM的检测器的一项关键贡献。关键的是,Rex-Omni是在零样本设置下实现这一点的,这表明基于MLLM的检测方法在高度精确的边界框定位并非唯一关键因素时,确实可以超越传统的基于回归的模型。,为大家着重分享他们团队的工作。

2026-03-25 09:40:30 2

原创 CVPR‘26 | LaS-Comp:20秒精准还原万物全貌!零样本3D补全提速3倍以上,精度暴涨27%

如果你直接在大模型脑子里进行补全,往往会发现补出来的东西和原有的部分“各长各的”,接缝处充满了裂纹和伪影。在3D视觉世界里,我们经常面临“只有碎片,没有全貌”的尴尬:机器人扫到了椅子的一角,雷达只拍到了汽车的半个屁股。IAS通过一个聪明的几何对齐损失函数,在不改动模型参数的情况下,微调当前的潜变量,让生成的补全部分与原有的观测部分在边缘处完美融合,消除所有的空洞和折痕。细节拉满:无论是绿植细碎的叶片,还是垃圾桶复杂的轮廓,又或是盆栽的花朵,LaS-Comp补出来的结果都显得既自然又真实。

2026-03-24 07:03:55 514

原创 CVPR‘26 | LaS-Comp:20秒精准还原万物全貌!零样本3D补全提速3倍以上,精度暴涨27%

如果你直接在大模型脑子里进行补全,往往会发现补出来的东西和原有的部分“各长各的”,接缝处充满了裂纹和伪影。在3D视觉世界里,我们经常面临“只有碎片,没有全貌”的尴尬:机器人扫到了椅子的一角,雷达只拍到了汽车的半个屁股。IAS通过一个聪明的几何对齐损失函数,在不改动模型参数的情况下,微调当前的潜变量,让生成的补全部分与原有的观测部分在边缘处完美融合,消除所有的空洞和折痕。细节拉满:无论是绿植细碎的叶片,还是垃圾桶复杂的轮廓,又或是盆栽的花朵,LaS-Comp补出来的结果都显得既自然又真实。

2026-03-24 07:03:55 517

原创 CVPR‘26 | LaS-Comp:20秒精准还原万物全貌!零样本3D补全提速3倍以上,精度暴涨27%

如果你直接在大模型脑子里进行补全,往往会发现补出来的东西和原有的部分“各长各的”,接缝处充满了裂纹和伪影。在3D视觉世界里,我们经常面临“只有碎片,没有全貌”的尴尬:机器人扫到了椅子的一角,雷达只拍到了汽车的半个屁股。IAS通过一个聪明的几何对齐损失函数,在不改动模型参数的情况下,微调当前的潜变量,让生成的补全部分与原有的观测部分在边缘处完美融合,消除所有的空洞和折痕。细节拉满:无论是绿植细碎的叶片,还是垃圾桶复杂的轮廓,又或是盆栽的花朵,LaS-Comp补出来的结果都显得既自然又真实。

2026-03-24 07:03:55 551

原创 CVPR‘26 | LaS-Comp:20秒精准还原万物全貌!零样本3D补全提速3倍以上,精度暴涨27%

如果你直接在大模型脑子里进行补全,往往会发现补出来的东西和原有的部分“各长各的”,接缝处充满了裂纹和伪影。在3D视觉世界里,我们经常面临“只有碎片,没有全貌”的尴尬:机器人扫到了椅子的一角,雷达只拍到了汽车的半个屁股。IAS通过一个聪明的几何对齐损失函数,在不改动模型参数的情况下,微调当前的潜变量,让生成的补全部分与原有的观测部分在边缘处完美融合,消除所有的空洞和折痕。细节拉满:无论是绿植细碎的叶片,还是垃圾桶复杂的轮廓,又或是盆栽的花朵,LaS-Comp补出来的结果都显得既自然又真实。

2026-03-24 07:03:55 178

原创 CVPR‘26 | LaS-Comp:20秒精准还原万物全貌!零样本3D补全提速3倍以上,精度暴涨27%

如果你直接在大模型脑子里进行补全,往往会发现补出来的东西和原有的部分“各长各的”,接缝处充满了裂纹和伪影。在3D视觉世界里,我们经常面临“只有碎片,没有全貌”的尴尬:机器人扫到了椅子的一角,雷达只拍到了汽车的半个屁股。IAS通过一个聪明的几何对齐损失函数,在不改动模型参数的情况下,微调当前的潜变量,让生成的补全部分与原有的观测部分在边缘处完美融合,消除所有的空洞和折痕。细节拉满:无论是绿植细碎的叶片,还是垃圾桶复杂的轮廓,又或是盆栽的花朵,LaS-Comp补出来的结果都显得既自然又真实。

2026-03-24 07:03:55 395

原创 CVPR‘26 | LaS-Comp:20秒精准还原万物全貌!零样本3D补全提速3倍以上,精度暴涨27%

如果你直接在大模型脑子里进行补全,往往会发现补出来的东西和原有的部分“各长各的”,接缝处充满了裂纹和伪影。在3D视觉世界里,我们经常面临“只有碎片,没有全貌”的尴尬:机器人扫到了椅子的一角,雷达只拍到了汽车的半个屁股。IAS通过一个聪明的几何对齐损失函数,在不改动模型参数的情况下,微调当前的潜变量,让生成的补全部分与原有的观测部分在边缘处完美融合,消除所有的空洞和折痕。细节拉满:无论是绿植细碎的叶片,还是垃圾桶复杂的轮廓,又或是盆栽的花朵,LaS-Comp补出来的结果都显得既自然又真实。

2026-03-24 07:03:55 14

原创 TPAMI2026 | 北理Causal HyperPrompter:去偏置高光谱伪装目标跟踪网络,解决视觉依赖难题

此外,我们提出了一种新的令牌类型嵌入模块,该模块集成了局部光谱角度建模,以增强模板和搜索令牌之间的语义联系,从而提高了模型对对象定位的敏感性。具体来说,因果适配器引入了一组反事实模板/搜索标记(灰色),这些标记由根据方程(6)学习的高斯分布生成,模拟了一个反事实情景,即根据方程(5)去除了虚假的RGB诱导线索。为了证明我们方法的卓越性能,在三个广泛使用的数据集上与先前的方法进行了全面的比较:HOT24-RedNIR、HOT24-VIS、BihoT-130k-TRA。本文仅做学术分享,如有侵权,请联系删文。

2026-03-23 07:04:22 591

转载 8年深耕SLAM/工业3D视觉/三维重建/自动驾驶/具身智能/无人机,那些真正沉淀下来的经验!

知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。3D视觉包含立体视觉、结构光和TOF,以立体视觉为主。

2026-03-21 00:01:37 25

原创 ICLR‘26开源|3DGEER:首个几何精确的3DGS框架!支持鱼眼/超广角/跨相机训练,渲染精度与效率全面提升

同样的,近期工作3DGUT采用UT来获得近似AABB的方式无法达到投影几何精确,和基于3DGRT的渲染方法结合使用时,会产生mismatched culling导致栅格化伪影。我们在大FoV的鱼眼模型下测试了scale up高斯的数量来拟合投影误差,发现无法close the gap,从而证明了精确投影闭式解的重要性。3DGEER提出双极等角投影(Bipolar Equiangular Projection),可以在任意大小的视场下保持均匀的光线采样,从而为辐射场训练提供稳定的视场大小无关的监督。

2026-03-21 00:01:37 620

原创 ICLR‘26开源|3DGEER:首个几何精确的3DGS框架!支持鱼眼/超广角/跨相机训练,渲染精度与效率全面提升

同样的,近期工作3DGUT采用UT来获得近似AABB的方式无法达到投影几何精确,和基于3DGRT的渲染方法结合使用时,会产生mismatched culling导致栅格化伪影。我们在大FoV的鱼眼模型下测试了scale up高斯的数量来拟合投影误差,发现无法close the gap,从而证明了精确投影闭式解的重要性。3DGEER提出双极等角投影(Bipolar Equiangular Projection),可以在任意大小的视场下保持均匀的光线采样,从而为辐射场训练提供稳定的视场大小无关的监督。

2026-03-21 00:01:37 543

原创 ICLR‘26开源|3DGEER:首个几何精确的3DGS框架!支持鱼眼/超广角/跨相机训练,渲染精度与效率全面提升

同样的,近期工作3DGUT采用UT来获得近似AABB的方式无法达到投影几何精确,和基于3DGRT的渲染方法结合使用时,会产生mismatched culling导致栅格化伪影。我们在大FoV的鱼眼模型下测试了scale up高斯的数量来拟合投影误差,发现无法close the gap,从而证明了精确投影闭式解的重要性。3DGEER提出双极等角投影(Bipolar Equiangular Projection),可以在任意大小的视场下保持均匀的光线采样,从而为辐射场训练提供稳定的视场大小无关的监督。

2026-03-21 00:01:37 513

原创 ICLR‘26开源|3DGEER:首个几何精确的3DGS框架!支持鱼眼/超广角/跨相机训练,渲染精度与效率全面提升

同样的,近期工作3DGUT采用UT来获得近似AABB的方式无法达到投影几何精确,和基于3DGRT的渲染方法结合使用时,会产生mismatched culling导致栅格化伪影。我们在大FoV的鱼眼模型下测试了scale up高斯的数量来拟合投影误差,发现无法close the gap,从而证明了精确投影闭式解的重要性。3DGEER提出双极等角投影(Bipolar Equiangular Projection),可以在任意大小的视场下保持均匀的光线采样,从而为辐射场训练提供稳定的视场大小无关的监督。

2026-03-21 00:01:37 340

原创 ICLR‘26开源|3DGEER:首个几何精确的3DGS框架!支持鱼眼/超广角/跨相机训练,渲染精度与效率全面提升

同样的,近期工作3DGUT采用UT来获得近似AABB的方式无法达到投影几何精确,和基于3DGRT的渲染方法结合使用时,会产生mismatched culling导致栅格化伪影。我们在大FoV的鱼眼模型下测试了scale up高斯的数量来拟合投影误差,发现无法close the gap,从而证明了精确投影闭式解的重要性。3DGEER提出双极等角投影(Bipolar Equiangular Projection),可以在任意大小的视场下保持均匀的光线采样,从而为辐射场训练提供稳定的视场大小无关的监督。

2026-03-21 00:01:37 106

转载 4μm精度+单幅扫描<1秒|先临三维OptimScan Q12 HD计量级高精度蓝光三维扫描仪,小范围扫描点距0.02mm,微米级细微特征精准还原

面对不同领域的三维测量需求,公司旗下高精度工业3D扫描业务提供包括无线一体式手持3D扫描仪、双光源手持3D扫描仪、手持式激光三维扫描仪、跟踪式激光三维扫描系统、固定式蓝光三维扫描仪、自动化智能三维检测系统以及专业彩色三维扫描仪等产品方案,广泛应用于汽车工业、民用航空、工程机械、能源重工、电子电器、艺术文博、精准医疗、教育科研等行业。检测方面,可选配通过德国PTB双重认证的SHINING3D Inspect工业计量三维检测软件,直观量化尺寸偏差,输出的检测报告可作为交付客户或体系审核的重要凭证。

2026-03-20 07:05:55 36

转载 世界模型得真正用起来 | RISE: 复杂长程真机Manipulation自我涨点新范式!

这套框架的核心洞见,是对学习本质的一次深刻重估:面对高动态、富接触、高精度的长程复杂任务,通过构建高保真的组合式世界模型,将昂贵、高风险的物理交互成本,转化为可扩展的计算成本,让机器人在思维沙盒中完成数万次的自我博弈与迭代,远比低效的真机训练更高效。RISE 的核心创新,在于将物理环境的交互完全迁移到组合式世界模型构建的想象空间中,通过虚实解耦的设计,既解决了世界模型的高保真模拟问题,又构建了高效的策略自进化闭环,让机器人在虚拟空间中完成试错 - 学习 - 优化的全流程。(c) 在真机任务上的显著提升。

2026-03-20 07:05:55 25

转载 YOLO26团队刚刚发布:一键部署+SAM3智能标注,支持检测/分割/姿态估计/旋转框/分类全任务,效率拉满!

开发者们可以直接上传原始图片、视频或数据集压缩包,导入已按YOLO或COCO格式标注完成的数据集,或是直接克隆社区共享的公开数据集,无论从零构建还是基于已有成果继续开发,数据均可上传即用。模型上线后,部署面板内置的全方位监控能力,可帮助开发者实时掌握生产环境运行状态,包括请求量、延迟、错误率、端点健康状况及详细日志。训练过程中,开发者可实时监控损失曲线、精确率、召回率与平均精度均值(mAP),通过混淆矩阵、精确率–召回率曲线精准分析模型表现,并支持多组实验并行对比,快速锁定最佳方案。

2026-03-19 09:25:41 75

转载 检测距离提升 402%!无标记 6D 姿态估计,彻底解决多机器人 SLAM 数据关联难题!

最后,文章还提到该框架可用于手部引导的手部 - 物体交互规划器,具有一定的应用潜力,但也指出了当前框架的局限性,如独立处理手部 - 物体对、假设已知物体模板等,并提出了未来的研究方向。在方法上,先在重力感知的局部框架中学习手部 - 物体交互的生成运动先验,该先验是一个基于扩散模型的条件模型,以大致估计的手部轨迹和物体模板为条件,生成细化的手部运动、物体轨迹和接触标签。红色圆圈突出显示了漂浮的物体。WHOLE方法旨在从以自我为中心的视频中,在给定物体模板的情况下,整体重建手部和物体在世界空间中的运动。

2026-03-18 07:05:11 35

转载 2026 3D视觉炸场!高斯泼溅彻底变天,前馈与生成正在融合

知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。物理世界与数字世界的边界不断消融,一个可预测、可编辑、可共生的数字宇宙正在到来。

2026-03-18 07:05:11 109

原创 CVPR 2026 | NVIDIA推出Fast-FoundationStereo:首个实时零样本立体匹配大模型,速度飙升10倍!

该流水线通过交叉验证教师模型的双目视差预测与单目深度预测,生成一致性掩码,最终提炼出140万对高质量的“野外(In-the-wild)”真实图像伪标签,极大地增强了模型在各种真实场景中的泛化能力。:在同一块NVIDIA 3090显卡上,原版基础模型的耗时高达 496ms(约2 FPS),而 Fast-FoundationStereo 的耗时骤降至 49ms(经过TensorRT进一步优化可达21ms,即~47 FPS),完美适配实际部署需求。通过一阶泰勒展开评估参数重要性并进行。)的网络结构组合进行优选。

2026-03-17 07:03:55 733

转载 VGGT总显存爆炸?OVGGT:无需训练,重建任意长度的3D模型,O(1)复杂度也能SOTA!

然而,KV缓存的线性增长仍然是一个关键瓶颈:100帧时每层累积的令牌就已超过10⁵个(占用约10GB显存),且每步的注意力成本随序列长度增加而上升,这从根本上阻碍了其在流式三维重建所需的长序列上的部署。我们介绍了OVGGT,一个无需训练的框架,能够在恒定内存和计算开销下,从任意长的视频中进行流式3D重建。通过将自选择性缓存与锚点保护相结合,我们的方法将缓存压缩到固定预算,同时保留了几何关键性令牌,在室内、室外和超长序列基准测试上实现了最先进的精度,并且能在单张消费级GPU上达到实时吞吐量。

2026-03-16 07:04:26 37

转载 实时避障 + 无遮挡感知!港科大新作:FC-Vision让无人机实现未知环境下无遮挡自主扫描

全面的模拟和实际评估表明,FC - Vision 在意外遮挡物存在的情况下持续提高扫描质量,实现了最高 55.32% 的覆盖增益和 73.17% 的遮挡率降低,同时在飞行时间适度增加的情况下实现了实时性能。相比之下,现有的仅考虑碰撞的重规划无法防止视场遮挡,导致观测被遮挡和结构完整性下降(D)。:关注飞行效率和目标可见性,效率用飞行时间(FT)衡量,可见性用目标覆盖率(CR)和遮挡率(OR)量化,可见性调整效率(VaE)定义为结合了覆盖率、遮挡率和飞行时间的综合指标,并报告重规划计算延迟(CL)。

2026-03-15 00:01:55 54

原创 港科大&腾讯ARC联合开源Track4World:精准跟踪3D场景中的每个像素!

由于真实的 3D 运动标注数据极其稀缺,模型训练困难重重。它将 3D 更新锚定在 2D 图像平面的相关性上,先迭代更新 2D 流,随后在点云中插值获取 3D 坐标,并结合几何先验预测 3D 流。在估计出整个视频的精确成对 2D-3D 流之后,Track4World 融合得到全局坐标系下的 3D 轨迹,进而构建世界中心坐标系下每个像素的整体 3D 追踪。:利用学习到的上采样技术,结合高精度的 2D 图像流与 3D 场景流的 Z 轴位移,通过相机内参解投影,恢复出全分辨率的密集 3D 场景流。

2026-03-14 00:01:40 427

转载 相机标定新突破!模糊图像+标定手抖也能高精度标定

后续研究不断优化通用相机标定的流程与精度:Dunne等人利用相位图案实现了密集的光线映射标定,Beck和Stiller通过B样条插值在离散网格上拟合通用模型,Schöps等人则提出了比棋盘格具备更丰富梯度信息的星形标定靶标,配合完整的光束平差(BA)流水线,实现了极高精度的通用相机标定,同时通过实验证明:即使通用模型仅实现了微小的亚像素标定精度提升,也能显著优化立体深度估计等下游任务的表现。相机标定的核心目标,是建立三维空间中的观测光线与二维图像像素之间的映射关系,是所有三维视觉任务的前置基础。

2026-03-13 07:04:05 62

原创 CVPR‘26开源AMB3R|精度超越VGGT!单卡无需优化搞定千图在线/离线重建,7任务13数据集SOTA

同时AMB3R-VO和AMB3R-SfM这两个即插即用的框架也成功的突破了3D大模型二次复杂度的限制,实现了单卡千图以上VO/SfM的同时无需任何优化模块。为了解决这一问题,在最新工作AMB3R中,作者团队受经典密集重建框架的启发,为神经网络引入了一个稀疏但紧致的3D后端,赋予了模型强大的3D显式几何推理能力。同时根据基于pointmap大模型的特性,作者团队还提出了AMB3R-VO和AMB3R-SfM两个无需训练,无需优化的即插即用框架,打破了3D大模型序列长度的桎梏。两个无需训练,与模型无关的框架。

2026-03-12 07:05:19 304

原创 CVPR‘26开源AMB3R|精度超越VGGT!单卡无需优化搞定千图在线/离线重建,7任务13数据集SOTA

同时AMB3R-VO和AMB3R-SfM这两个即插即用的框架也成功的突破了3D大模型二次复杂度的限制,实现了单卡千图以上VO/SfM的同时无需任何优化模块。为了解决这一问题,在最新工作AMB3R中,作者团队受经典密集重建框架的启发,为神经网络引入了一个稀疏但紧致的3D后端,赋予了模型强大的3D显式几何推理能力。同时根据基于pointmap大模型的特性,作者团队还提出了AMB3R-VO和AMB3R-SfM两个无需训练,无需优化的即插即用框架,打破了3D大模型序列长度的桎梏。两个无需训练,与模型无关的框架。

2026-03-12 07:05:19 340

原创 CVPR‘26开源AMB3R|精度超越VGGT!单卡无需优化搞定千图在线/离线重建,7任务13数据集SOTA

同时AMB3R-VO和AMB3R-SfM这两个即插即用的框架也成功的突破了3D大模型二次复杂度的限制,实现了单卡千图以上VO/SfM的同时无需任何优化模块。为了解决这一问题,在最新工作AMB3R中,作者团队受经典密集重建框架的启发,为神经网络引入了一个稀疏但紧致的3D后端,赋予了模型强大的3D显式几何推理能力。同时根据基于pointmap大模型的特性,作者团队还提出了AMB3R-VO和AMB3R-SfM两个无需训练,无需优化的即插即用框架,打破了3D大模型序列长度的桎梏。两个无需训练,与模型无关的框架。

2026-03-12 07:05:19 495

原创 CVPR‘26开源AMB3R|精度超越VGGT!单卡无需优化搞定千图在线/离线重建,7任务13数据集SOTA

同时AMB3R-VO和AMB3R-SfM这两个即插即用的框架也成功的突破了3D大模型二次复杂度的限制,实现了单卡千图以上VO/SfM的同时无需任何优化模块。为了解决这一问题,在最新工作AMB3R中,作者团队受经典密集重建框架的启发,为神经网络引入了一个稀疏但紧致的3D后端,赋予了模型强大的3D显式几何推理能力。同时根据基于pointmap大模型的特性,作者团队还提出了AMB3R-VO和AMB3R-SfM两个无需训练,无需优化的即插即用框架,打破了3D大模型序列长度的桎梏。两个无需训练,与模型无关的框架。

2026-03-12 07:05:19 525

转载 从零开始搭建搭建一套双目散斑3D重建系统教程[理论+源码+实践]

随着智能制造、三维检测、数字孪生等领域的飞速发展,高精度、高效率的三维形貌与尺寸测量技术已成为工业质检、逆向工程、医疗影像及科研探索中的核心需求。散斑投影三维测量技术,作为一种非接触、高精度的光学测量方法,在复杂表面重建和动态测量等场景中展现出不可替代的优势。本课程将引导学员不仅理解技术的数学与物理本质,更能亲自动手搭建软硬件系统,编写核心算法代码(散斑生成代码+立体匹配串行版本的代码),最终实现对待测物体的高精度三维重建,完成从知识到能力的实质性跨越。通过深度的理论剖析与手把手的项目实践,

2026-03-10 07:06:03 44

卡尔曼滤波示例程序

这是我在研究卡尔曼滤波以及粒子滤波时,封装好的卡尔曼滤波跟踪二维点的程序。程序中已经有测试好的点击,配置好opencv属性表,便可以直接运行。

2018-04-25

相机最佳曝光时间的确定

由于每次使用相机时,需要调试相机的曝光时间,比较耽误时间,因而封装了一个函数,可以用来确定相机最佳的曝光时间。

2017-12-21

Particle滤波 粒子滤波跟踪算法

粒子滤波跟踪算法,我已成功运用于光笔的动态跟踪,现上传,希望可以帮助到大家。

2017-08-22

利用PointGrey相机连续拍照

此程序可以用来给PointGrey通过程序拍照,并且拍完的照片可以连续保存到指定的文件夹下。

2017-05-13

socket通信技术

1、 程序:socket_Send为发送端; 程序:socket_Receive为接收端; 2、 此程序可以用来接收和发送txt,jpg.avi等各种文件和char类型的数据; 如果对于结构体,可以先将其转化成char,再发送,接收之后,再转化成结构体。 可以参考我知乎提供的方法。

2018-01-23

GBK.h QT中显示中文

只要包含该头文件在QT工程中, QString imgPath = QFileDialog::getExistingDirectory(this, GBK::ToUnicode("设置图像 打开路径"), "D:/ImgFiles/", QFileDialog::Option::ShowDirsOnly); 如这条语句中用法,便可显示中文。

2018-01-18

XML头文件与cpp函数

此为XML文件读写的函数头文件与cpp文件,在项目中添加进来即可。

2018-01-26

qt data visualization 5.7.1 源码

这是我在QT官网上下载的qt data viualization的源码,可以使用Cmake成功编译。

2017-12-19

XML文件读写程序C++

XML文件读写封装好的程序,可以加入到工程中直接使用。

2017-12-21

串口程序 可以自动识别串口号

可以用来自动识别串口号,方便快捷,成功应用于ZigBee板子中。

2017-05-13

配置VS2013+Qt5开发环境续:安装和设置以及QT工程创建

该资源为VS2013+QT5开发环境的安装配置以及Qt的工程创建。

2018-01-08

串口自动识别

Com端自动识别函数的封装,经过测试,亲测有效,可以自动识别串口号。

2017-12-21

相机拍照程序(PointGrey相机)

资源中是我经常使用的PointGrey相机的拍照程序,实现了可以使用软触发和硬触发拍照。

2017-12-21

QGraphicsView类的简单用法

QT 控件QGraphicsView的简单用法,包含头文件和cpp,函数调用参考README.txt

2018-01-18

socket通信界面程序

1、发送端为利用PointGrey相机追踪编码点并将其坐标值传输给接收端; 2、接收端为使用Qt Data Visualizaiton库编写的三维点显示界面。

2018-01-24

xml读写项目总结

里面包括:1、封装好的XML文件的读和写工程;2、tinyxml库;3、xmlPPT讲解。

2018-01-26

粒子滤波在图像领域的跟踪

粒子滤波在非高斯、非线性状况下,运动情况由于卡尔曼滤波。这是我在研究粒子滤波时,封装好的测试程序。下载之后,只需要将opencv属性表添加进来,便可以观看到运行效果图。

2018-04-25

socket通信

socket通信实现代码,已经成功测试。可以运用于QT以及MFC。

2018-01-08

QT在VS2013中的配置

该文档为QT5.7.1在VS2013中详细的配置教程,文章中对于配置过程中必要的软件安装包下载链接皆已提供。

2018-05-08

VS2013+OpenCV3.1.0配置教程

该文档为OpenCV3.1.0在VS2013中详细的配置教程,包括相关安装包的下载链接。

2018-05-08

PCL1.8.0+VS2013+Win10 x64的配置教程

本篇文章主要介绍一下PCL库的配置过程,适合PCL入门。 一配置环境 1.win10 X64 2.Visual Studio 2013

2018-05-08

支持linux下像素级查看图片

支持linux下像素级查看图片

2023-01-29

Ymodem串口升级界面及源码(linux下也可使用)

Ymodem串口升级界面及源码(QT)

2022-07-20

如何在Linux下使用“linuxdeployqt”源码打包发布Qt程序

使用教程请参考博客:https://yongqi.blog.csdn.net/article/details/125841736

2022-07-18

ubuntu下基于Clion+QT编写的界面demo,适合入门

ubuntu下基于Clion+QT编写的界面demo,适合入门, 博客请参考:https://yongqi.blog.csdn.net/article/details/125698957

2022-07-11

针孔、鱼眼相机标定,包括单目和双目标定demo

针孔、鱼眼相机标定,包括单目和双目标定demo, 基于OpenCV和C++。

2022-07-01

OpenCV3.3.1安装包

用法请参考:https://mp.csdn.net/mp_blog/creation/success/125555489

2022-07-01

linux下TCP通讯助手

里面为deb文件,直接双击即可安装。或者通过指令: sudo dpkg -i **.deb 如果安装后点击软件无反应,则需要在终端执行: sudo apt-get install libqtgui4:amd64

2022-06-30

本demo主要实现ubuntu下实现与PLC以及机械臂之间的TCP网络通讯,并将C++代码编译成可以供C函数直接调用的C库。

本demo主要实现ubuntu下实现与PLC以及机械臂之间的TCP网络通讯,并将C++代码编译成可以供C函数直接调用的C库。

2022-06-22

Windows下TCP通讯实战demo及TCP助手

内容概要: Windows下TCP通讯实战demo,可以直接适用于与EPSON或者三菱等机械臂通讯,包括发送与接收字符串,位姿坐标等,以及两个好用的TCP助手。 适用人群:需要进行网络通讯的场景。

2022-06-03

Linux下的TCP通讯实战demo以及通讯助手下载

内容概要: Linux下的TCP通讯实战demo,以及通讯助手小工具 适用人群: 需要进行TCP网络通讯的问题。 主要适用场景。 通过网线或者wifi进行数据通讯的场景 //注意:在使用tcp/ip通讯时,请将服务器与客户端的ip设为同一个网段。 //本次演示的demo中, //服务器的ip为:192.168.3.8 端口号为8080 //客户端的ip为:192.168.3.48 端口号为36214(可以通过串口助手查看端口号) //以上同一个网段,如何判断两个ip地址是否为同一个网段,可以参考博客:https://baijiahao.baidu.com/s?id=1687382131051003813&wfr=spider&for=pc

2022-06-03

UKF(无迹卡尔曼滤波)

主要封装了UKF(无迹卡尔曼滤波)的跟踪demo,并配有直观的图形展示,简单易用。 UKF,是KF、EKF的变种与扩展,对于非线性跟踪效果要明显好于KF。

2020-12-03

Visual Assistant 2015破解版安装包

详细的安装教程请参见:https://mp.weixin.qq.com/s/_JvR9pWiIvDI7uOQvr1IGA

2018-09-12

Github安装包

Github安装包。点击下载,解压即可轻松安装。便于项目工程管理。

2018-05-12

particle_filter_demo.zip

主要封装了粒子滤波(Particle Filter)对于非线性系统、非高斯噪声系统的跟踪效果,附有数据与图形展示过程,直观易懂。

2020-12-03

精确绘制椭圆

该文件封装好的函数为:1、利用OpenCV函数绘制椭圆;2、利用面积法精确绘制椭圆。替换掉OpenCV属性表,即可成功运行。

2018-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除