自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(189)
  • 收藏
  • 关注

原创 【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南

Nerfstudio,一个用于NeRF开发的模块化PyTorch框架。框架中用于实现基于NeRF的方法的组件即插即用,使得研究人员和相关从业者可以轻松地将NeRF集成到自己的项目中。框架的模块化设计支持实时可视化工具,导入用户真实世界捕获的数据集外(in-the-wild)数据,以及导出为视频,点云和网格表示的工具。近期,还导入了InstantNGP、3D Gaussian Splatting等最新重建算法。

2024-04-08 23:05:42 18754 33

原创 【世界模型】Captain Safari:位姿对齐3D记忆的世界引擎(CVPR 2026)

本文提出Captain Safari——一种基于位姿条件的三维世界引擎,通过持久化记忆机制实现长距离视频生成。针对现有系统在复杂摄像机运动和户外场景中表现不佳的问题,该方法创新性地采用动态局部记忆窗口与位姿对齐检索策略:仅筛选关键场景特征构建紧凑世界表示,在保证计算效率的同时维持三维一致性。研究团队还发布了OpenSafari数据集,包含高动态无人机拍摄的复杂户外场景视频及验证轨迹。实验表明,该模型在MEt3R、AUC@30等指标上超越现有方法,人类评估偏好率达67.6%。这项工作为可控视频生成提供了新范式

2026-04-03 11:39:56 414

原创 【动态重建】FreeTimeGS:动态场景重建中的任意时空自由高斯原始数据(CVPR 2025)

本文提出FreeTimeGS方法,解决复杂运动场景动态三维重建的挑战。传统方法依赖形变场将规范基元映射至观察空间,难以处理复杂运动。FreeTimeGS创新性地采用四维表示,允许高斯在任意时空位置渲染,并赋予每个基元运动函数以实现动态迁移。通过时空不透明度建模、周期性重定位和速度初始化策略,显著提升了动态场景建模能力。实验在Neural3DV、ENeRF-Outdoor和自建SelfCap数据集上验证了方法的优越性,PSNR、DSSIM和LPIPS指标均优于现有方法,且训练效率高(300帧序列仅需1小时)。

2026-04-02 11:24:33 338

原创 【三维重建】DROID-SLAM-W:不确定性感知束调整的动态干扰SLAM重建

摘要: 本文提出了一种鲁棒的实时RGB SLAM系统,通过可微分不确定性感知束调整技术应对动态环境挑战。传统SLAM方法在动态场景中易失效,而现有动态SLAM方案依赖预定义先验或不可靠几何映射。本方法创新性地利用多视角视觉特征不一致性估算像素级不确定性,在杂乱动态场景中实现了最先进的相机位姿估计与场景重建,同时保持约10FPS的实时性能。系统基于DROID-SLAM框架,引入不确定性优化模块,交替更新位姿深度与动态置信度,结合DINOv2特征增强多视图一致性判断,显著提升了动态环境下的鲁棒性。

2026-04-01 18:21:10 447

原创 【代码解析】Inspatio World代码解析

本文介绍了基于InSpatio-World的视频处理流程,主要包含四个关键步骤:1)准备输入视频和预训练模型;2)使用Florence-2生成视频字幕;3)通过DA3进行深度预测并转换为Pi3格式;4)基于指定相机轨迹进行点云渲染。该流程支持多GPU并行处理,通过轨迹文件控制视角变换,最终生成新的视频视图。系统依赖多个预训练模型(如InSpatio-World 1.3B、Wan2.1-T2V等)和配置文件,可通过run_test_pipeline.sh脚本一键执行。核心渲染技术采用点平铺和深度缓冲区算法,实

2026-04-01 10:07:49 369

原创 【世界模型】video2world:从不一致视角重建世界

本文提出了一种从视频扩散模型生成的不一致多视角图像中重建高质量三维场景的方法。针对单帧图像缺乏三维一致性的问题,该方法首先利用几何基础模型获取每帧的深度和相机参数,生成初始点云;然后通过非刚性迭代帧到模型ICP算法实现帧间对齐,并结合全局优化提升点云质量;最后采用非刚性高斯泼溅优化构建标准空间重建。实验结果表明,该方法能有效解决生成漂移问题,显著提升三维重建质量,实现从视频模型到三维一致性世界生成器的高效转换。

2026-03-26 23:09:11 432

原创 【动态重建】LASER:基于层的尺度对齐无训练流式4D重建

本文提出了一种无需训练的流式4D重建框架LASER,通过逐层尺度对齐技术解决现有方法的内存瓶颈问题。LASER将视频分割为重叠时间窗口,在每个窗口内使用冻结的离线模型进行局部重建,然后通过分层尺度对齐将局部子图合并到全局地图中。实验表明,该方法在保持14FPS实时性能的同时,显著降低了内存消耗(峰值6GB),并在相机位姿估计和点云重建任务上达到先进水平。

2026-03-20 13:20:19 421

原创 【世界模型】InSpatio-WorldFM:开源实时生成帧模型

摘要 InSpatio-WorldFM是一款开源实时生成式帧模型,采用创新独立帧生成范式解决传统视频模型延迟问题。通过显式3D锚点与隐式空间记忆机制,模型实现了多视角空间一致性,同时保持实时推理能力。研究提出渐进式三阶段训练流程:从图像扩散模型转化为可控帧模型,经少步蒸馏最终实现实时生成。实验证明模型在消费级GPU上能保持多视角一致性的同时实现实时推理。技术核心包括多视角一致性数据清洗、三阶段训练流程(基础图像生成→可控帧模型→实时生成器)以及两步去噪技术。该框架支持单图转新视角任务,输入参考图像和相机位姿

2026-03-20 08:57:45 509 1

原创 【世界模型】WorldWarp:异步视频扩散的3D重建

摘要 《WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion》提出了一种创新方法来解决长视频生成中的几何一致性问题。该方法通过3D高斯泼溅(3DGS)构建在线几何缓存,将历史内容显式变形为新视角作为结构支架。针对静态变形导致的遮挡问题,设计了时空扩散模型(ST-Diff),其核心创新是时空变化的噪声调度机制:空白区域施加全噪声触发内容生成,变形区域则采用局部噪声进行细节优化。该方法融合了三维几何引导与扩散模型纹理生成的优势,

2026-03-10 16:15:30 531

原创 【前馈三维重建】YoNoSplat:仅需单一模型的前馈 3DGS

YoNoSplat提出了一种前馈模型,可从任意数量无位姿图像重建高质量3D高斯场景。其核心创新包括:1)混合训练策略,通过逐步引入预测位姿缓解任务耦合问题;2)局部预测与全局聚合框架,结合成对相机距离归一化和内参条件嵌入解决尺度歧义;3)高效架构设计,在2.69秒内完成100视角重建。实验表明,该方法在无位姿和有位姿场景下均达到SOTA性能,同时支持内参预测,适用于非校准输入。

2026-03-05 14:42:51 545

原创 【三维重建】ReSplat:学习递归高斯 SPLATS

摘要: ReSplat提出了一种基于循环高斯扩散的3D场景重建方法,通过迭代优化3D高斯分布(3DGS)实现高效渲染。该方法利用3DGS渲染误差作为反馈信号,驱动循环网络学习高斯参数更新,无需显式计算梯度,显著提升了跨数据集、视图数量和分辨率的泛化能力。核心创新包括:(1) 16倍降采样的紧凑初始化模型,大幅减少高斯数量;(2) 结合kNN与全局注意力的3D上下文聚合;(3) 轻量级MLP解码器生成初始高斯参数。实验表明,该方法在DL3DV等数据集上,以更少的高斯数量和更快的渲染速度,实现了业界领先的性能。

2026-03-04 11:34:21 590

原创 【前馈三维重建】AnySplat: 无约束视图的前馈3DGS生成

摘要: 中国科学技术大学等机构提出的AnySplat是一种前馈网络,能够从未校准图像集合中合成新视角并预测相机位姿。该模型通过单次前向传播生成3D高斯分布(3DGS)基元及相机参数,无需场景级优化或已知相机姿态,适用于无约束多视角数据集。创新性地引入可微分体素化模块降低计算成本,并设计几何一致性损失消除深度预测的分层伪影。实验表明,AnySplat在稀疏/密集视角下均达到与姿态感知基线相当的质量,显著优于现有无姿态方法,且渲染速度优于优化型神经场,为实时新视角合成提供可能。 关键点: 单次预测:联合输出3D

2026-02-27 15:27:27 671

原创 【三维重建】SplatSuRe: 多视图一致的3DGS选择性超分

摘要: 《SplatSuRe》提出了一种针对3D高斯泼溅(3DGS)的多视角一致性超分辨率方法。传统超分技术独立增强每张低分辨率(LR)图像,导致多视角不一致和模糊渲染。SplatSuRe创新性地选择性应用超分,仅对缺乏高频监督的欠采样区域进行增强。其核心是通过几何感知的高斯保真度评分(基于投影半径比率)动态生成视角专属权重图,指导超分内容的注入位置。实验表明,该方法在《Tanks & Temples》等数据集上显著提升细节保真度,尤其在前景区域效果突出,且避免了过度增强引发的多视角冲突。 关键词:

2026-02-26 10:40:28 689

原创 【点云分割】SNAP:面向任意点云的任意分割

摘要 SNAP提出了一种统一的3D点云分割模型,支持跨场景和多种交互方式(空间点击/文本提示)。针对现有方法局限于单一场景类型和交互形式的问题,该研究通过训练涵盖7个多领域数据集并采用领域自适应归一化,有效防止负迁移现象。关键技术包括:基于PTv3的点云编码、域特定归一化处理、空间提示与文本提示的双模分割机制。实验表明,SNAP在8/9个零样本基准测试中达到空间提示分割的SOTA水平,在5个文本提示基准测试中均表现优异,验证了统一模型超越专用方法的潜力,为可扩展3D标注提供了实用工具。

2026-02-09 16:01:07 702

原创 【前沿】2025年度三维视觉前沿趋势与十大进展(Mini3DV)

三维视觉迎来战略发展机遇,AI领域领军人物指出世界模型、空间智能与具身智能是关键方向。2025年三维视觉已深度整合Transformer架构,形成"多模感知-三维建模-四维生成-实时交互"一体化智能架构雏形。五大前沿趋势显现:1)前馈三维重建降低高质量3D内容制作门槛;2)三维生成与重建技术加速融合;3)视频生成推动世界模型与具身智能发展;4)人类行为数据成为具身智能训练核心资源;5)具身智能训练范式向交互驱动强化学习演进。VGGT等前馈式重建技术突破实现高效时空三维理解,为空间智能奠定

2026-02-04 18:51:24 1150

原创 【世界模型】AI世界模型的两次物理大考(测评)

最新视频生成模型测评

2026-02-03 23:08:55 836

原创 【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制

我们 提出物理可信ISP(PPISP)校正模块,通过基于物理原理且可解释的变换,有效分离相机固有效应与拍摄依赖效应 。专用 PPISP 控制器基于输入视角训练,可预测新视角的ISP参数,其工作原理类似于真实相机的自动曝光和自动白平衡功能。该设计无需真实图像,即可对新视角进行真实且公平的评估。 PPISP 在标准基准测试中达到当前最佳性能,同时提供直观控制并支持元数据整合(当可用时)。

2026-01-30 20:40:33 729

原创 【视频生成】SRENDER:基于<稀疏扩散>与<3D渲染>的像机轨迹视频生成

本文提出了一种针对静态场景的相机条件视频生成新策略:先利用基于扩散的生成模型生成稀疏关键帧集,再通过三维重建与渲染合成完整视频。通过将关键帧转化为三维表示并渲染中间视图,确保几何一致性的同时,将生成成本分摊至数百帧。我们进一步引入预测模型,可为特定摄像机轨迹预测最优关键帧数量,使系统能自适应分配计算资源。最终提出的srender方法采用极简关键帧处理简单轨迹,采用密集关键帧处理复杂运动轨迹。该方法在生成20秒视频时,生成速度较基于扩散的基准模型提升40倍以上,同时保持高视觉保真度与时间稳定性,为高效可控的视

2026-01-29 17:24:36 801

原创 【三维生成】ShapeR:单目视频的条件三维形状生成

ShapeR:基于随手拍摄的多模态3D物体生成方法 摘要:ShapeR提出了一种创新方法,利用随手拍摄的序列数据生成高质量3D物体形状。该方法通过整合视觉惯性SLAM的稀疏点云、多视角图像和机器生成描述文字,采用rectified flow transformer架构实现多模态条件下的形状生成。为解决现实场景中的遮挡和噪声问题,研究团队设计了包含实时数据增强和两阶段课程学习的训练策略,并引入包含178个真实场景物体的评估基准。实验表明,ShapeR在Chamfer距离指标上较现有最佳方法提升2.7倍,显著提

2026-01-28 16:39:15 905

原创 【视频生成】HY-World 1.5:实时延迟和几何一致的交互式世界模型系统(腾讯混元)

HY-World 1.5:实时交互式世界建模系统框架 腾讯推出的HY-World 1.5突破了传统3D世界建模的局限性,通过创新的WorldPlay流式视频扩散模型,实现了24FPS的实时交互式世界生成。该系统具备四大核心技术: 1)双动作表征融合离散与连续控制信号; 2)重构上下文记忆机制保持长期几何一致性; 3)WorldCompass强化学习框架提升动作跟随能力; 4)上下文强制蒸馏技术平衡速度与精度。基于32万段多源训练数据(含游戏、真实3D、合成及自然场景),模型支持第一/第三人称视角,可应用于三

2026-01-16 16:30:05 1035

原创 【无标题】ASTRA:自回归去噪的通用交互式世界模型

Astra模型提出了一种通用交互式世界建模新范式,新性地将自回归长时程建模与扩散高保真合成相结合,通过噪声增强历史记忆机制和动作感知适配器,在自动驾驶、机器人操作等多样化场景中实现了高精度未来预测与动作交互。实验表明,Astra在保真度、远距离预测和动作对齐方面显著超越现有世界模型,为构建可交互、高一致性的通用视觉世界模型提供了新思路。

2026-01-15 19:18:52 1093

原创 【平面重建】3D高斯平面:混合2D/3D光场重建(NeurIPS2025)

摘要: 本文提出3D Gaussian Flats(3DGS-Flats),一种创新的2D/3D混合表征方法,用于解决现有辐射场技术在重建平面无纹理表面时的局限性。通过联合优化约束平面(2D)高斯函数与自由形式(3D)高斯函数,该方法动态检测并优化平面区域,显著提升视觉保真度与几何精度。实验表明,在ScanNet++和ScanNetv2数据集上,该方法实现了最先进的深度估计效果,并在网格提取中表现优异,无需过度拟合特定相机模型,为室内场景高质量重建提供了高效解决方案。 方法: 混合表示:结合2D平面高斯(精

2026-01-08 18:11:18 1032

原创 【三维重建】IBGS:基于图像的高斯溅射(NeurIPS 2025)

本文提出IBGS方法,通过结合3D高斯溅射(3DGS)与图像残差学习,显著提升了新型视图合成(NVS)的质量。传统3DGS受限于低阶球面谐波,难以捕捉高频细节和视点相关效应。IBGS创新性地将像素颜色分解为基础色(3DGS渲染)和残差(从邻近训练图像学习),在保持存储效率的同时实现了精细色彩建模。具体实现包括:1)基于高斯中心与法向量的多视角特征提取;2)轻量级网络预测颜色残差;3)曝光校正模块处理光照差异。实验表明,该方法在标准NVS基准测试中显著优于传统高斯溅射方法,有效平衡了渲染质量与计算开销。

2025-12-29 10:17:17 868

原创 【三维生成】SHARP:一秒内合成单目视图(苹果公司)

本文提出了一种基于单张图像的快速逼真视图合成方法SHARPa,能够在标准GPU上通过神经网络单次前向传播在1秒内生成场景的3D高斯表示。该方法采用深度调节模块解决单目深度估计的模糊性问题,通过高斯解码器优化初始高斯属性,并支持实时渲染新视角图像。实验结果表明,该方法在多个数据集上显著优于现有技术,LPIPS降低25%-34%,DISTS减少21%-43%,同时将合成时间缩短三个数量级。网络结构包含3.4亿可训练参数,能处理1536×1536像素输入并生成约120万高斯分布。

2025-12-25 18:48:56 997

原创 【动态重建】VGGT4D:用于4D场景重建的视觉Transformer运动线索挖掘

本文提出VGGT4D方法,无需额外训练即可将3D基础模型VGGT扩展为4D场景重建工具。该方法通过挖掘VGGT全局注意力层中隐含的动态线索,利用格拉姆相似性统计和时间窗口聚合生成动态mask,并结合投影梯度感知策略优化mask边界。实验表明,VGGT4D在六个数据集上实现了优于现有方法的动态物体分割、相机姿态估计和密集重建性能,并能单次处理超过500帧的长序列。核心创新在于:1) 无训练扩展3D模型至4D重建;2) 通过Gram相似性统计和梯度优化实现稳定的动态-静态解耦;3) 在多个任务上展现卓越性能与泛

2025-12-12 12:40:05 1201

原创 【三维重建】G4SPLAT:生成先验的几何引导高斯

本文提出G4SPLAT方法,通过几何引导的高斯泼溅与生成先验,解决现有三维重建方法在几何监督和多视角一致性方面的局限。首先利用平面结构推导精确深度图,为观测与未观测区域提供可靠监督;其次将几何引导贯穿生成流程,改善可见性估计与新视角选择,增强多视角一致性。实验表明,该方法在Replica等数据集上几何与外观重建均优于基线,尤其在未观测区域表现突出,并支持单视图输入和非摆拍视频,具有较强的泛化能力。

2025-12-05 16:13:58 1067

原创 【三维重建】噪声引导Splatting的透明度修复

本文提出了一种解决3D高斯泼溅(3DGS)中虚假透明度问题的新方法Noise Guided Splatting(NGS)。3DGS在重建不透明物体时,由于仅优化RGB图像的光度损失而缺乏不透明度约束,常导致表面出现错误的透明效果,在交互式观看时尤为明显。NGS通过在物体体积内注入随机颜色的不透明噪声高斯,引导优化过程优先处理不透明表面,同时保持渲染质量。实验表明,NGS能显著减少虚假透明度,且在标准渲染指标上保持竞争力。此外,作者提出了基于透射率的量化评估方法,并构建了专门的数据集来验证方法的有效性。这项工

2025-12-05 15:16:15 834

原创 【三维重建】Co-Me:置信度引导token合并:用于视觉几何Transformer

摘要 本文提出置信度引导的token合并方法Co-Me,用于加速视觉几何Transformer而不需重新训练模型。该方法通过轻量级置信度预测器对token进行排序,选择性合并低置信度token以减少计算量。Co-Me包含置信度蒸馏和token合并两阶段:首先从ViT模型中提取置信度预测模块,然后在推理时生成合并mask指导token操作。实验表明,Co-Me在VGGT和MapAnything等模型上实现7.2-11.3倍加速,同时保持深度估计等任务的性能。该方法采用多项优化技术,包括注意力偏差校正和高效实现

2025-12-03 16:59:40 693

原创 【图像生成】Back to Basics:让去噪生成模型去噪

当前的去噪扩散模型并不真正实现“去噪”,即它们无法直接生成清晰图像。这类模型本质上是预测噪声或含噪数据。本文提出,预测清晰数据与预测含噪数据存在本质差异。根据流形假设,自然数据应分布在低维流形上,而含噪数据则不然。基于此假设,我们主张采用直接预测清晰数据的模型,这使得看似容量不足的网络能在极高维空间中有效运作。研究表明,无需分词器、无需预训练、无需额外损失函数的简单大块像素Transformer,也能成为强大的生成模型。我们的方法本质上就是“图像Transformer”(JiT)。在ImageNet数据集上

2025-12-02 14:58:05 1184

原创 【三维重建】【深度估计】DepthAnything3:从任意视图恢复视觉空间

DepthAnything3:从任意视角恢复视觉空间 摘要:DepthAnything3(DA3)是由字节跳动提出的创新模型,能够从任意数量视觉输入(单图/多视图/视频)预测空间一致的几何结构,无论是否已知相机姿态。该模型突破性地采用单一标准Transformer(DINO编码器)作为骨干网络,结合深度-光线预测目标,简化了传统多任务学习的复杂性。通过师生训练范式,DA3在细节保留和泛化能力上媲美前代DA2。研究建立了包含相机姿态估计、多视角几何重建和视觉渲染的新基准,实验表明DA3在相机姿态准确率(超越V

2025-11-27 22:03:10 1534

原创 【三维重建】FastGS:100秒内训练3D高斯溅射

FastGS提出一种高效训练3D高斯溅射(3DGS)的新框架,通过多视图一致性机制优化高斯分布管理。相比现有方法仅依赖高斯属性评分,FastGS基于重建质量评估高斯基元重要性,设计了稠密化策略VCD和剪枝策略VCP,并引入Compact Box加速光栅化。实验表明,FastGS在Mip-NeRF 360等数据集上训练速度较SOTA提升3-15倍,同时保持渲染质量,其Big版本进一步提升性能。该方案具有通用性,适用于动态场景、稀疏视图等多种重建任务。

2025-11-18 11:28:45 2172

原创 【动态高斯重建】论文集合:从4DGT到OMG4、4DSioMo

4DGT——基于Gaussian Splating的 4D Transformer,专为动态场景重建设计,其训练数据完全来自真实场景的单目posed视频。通过将4DGS作为归纳偏置,该模型成功融合静态与动态元素,能够建模具有不同物体生命周期的复杂时变环境。我们在训练中创新性地引入密度控制策略,使4DGT既能处理更长的时空输入数据,又能在运行时保持高效渲染。模型采用滚动窗口方式处理64帧连续posed画面,持续预测场景中的4DGS。与基于优化的方法不同,

2025-11-15 22:55:08 1891

原创 【三维编辑】DREAMCATALYST:平衡可编辑性和ID的快速高效3D编辑

DreamCatalyst: 快速高质量3D编辑框架 本文提出DreamCatalyst框架,从扩散逆过程的角度重新审视分数蒸馏采样(SDS),解决了现有3D编辑方法训练时间长、质量低的问题。通过将采样动态融入SDS框架,该方法实现了: 快速模式 - 比现有NeRF编辑方法快23倍 高质量模式 - 在速度提升8倍的同时获得更优结果 技术核心包括: 建立SDS与DDIM采样的理论联系 设计匹配扩散时间步功能的优化函数 引入显式身份保持项与编辑梯度项 实验表明该方法在NeRF和3DGS编辑任务中均优于当前最优技

2025-11-15 22:07:33 877

原创 【大场景重建】SkyfallGS:从卫星图像中合成沉浸式3D城市场景

本文提出一种两阶段方法,将卫星图像转化为逼真的3D城市场景。第一阶段采用3D高斯点云模型进行重建,结合光照自适应外观建模和正则化处理解决多日期影像差异问题。第二阶段通过课程学习策略迭代优化,使用文本引导的扩散模型编辑技术逐步降低视角,有效恢复被遮挡区域并提升纹理质量。实验在DFC2019和Google Earth数据集上验证了该方法优于现有基准,能生成几何结构完整且纹理忠实的高质量3D城市场景。

2025-11-10 11:33:28 1653 2

原创 【视频生成】GVS:生成式视图拼接

摘要 MIT CSAIL和RunwayML团队提出生成式视图拼接(GVS)技术,解决自回归视频扩散模型在摄像机引导生成中的局限性。传统方法因无法利用未来条件导致场景与轨迹冲突,GVS通过并行采样整个序列确保生成内容与预设轨迹一致。关键技术包括:1)将扩散拼接技术从机器人规划拓展至视频生成,兼容现有视频扩散模型;2)开发Omni Guidance机制,结合历史与未来预测提升时间一致性;3)实现闭环控制支持长距离连贯性。实验表明,GVS能稳定生成符合复杂摄像机路径(如"不可能楼梯")的无碰撞

2025-11-10 11:22:28 1077

原创 【三维生成】FlashWorld:秒级生成高质量3D场景

FlashWorld:秒级生成高品质3D场景 FlashWorld提出了一种突破性的3D场景生成方法,可在数秒内从单图或文本生成高质量3D场景,渲染速度比现有技术快10-100倍。该研究通过双模式预训练和跨模式后训练的创新框架,解决了传统多视图导向方法(MV)与3D导向方法之间的矛盾:MV模式虽画质高但缺乏3D一致性,3D模式虽保一致性但画质欠佳。 核心贡献包括: 双模式预训练:基于视频扩散模型初始化,构建同时支持MV和3D模式的多视图扩散模型 跨模式后训练:采用DMD2蒸馏技术,将高质量MV模式的知识迁移

2025-11-10 11:14:34 838

原创 【三维分割】LangSplatV2:高维的语言3DGS,快到450+FPS

LangSplatV2:突破实时3D语言高维特征渲染技术 哈佛、清华等机构联合提出的LangSplatV2系统实现了三维语言高斯的革命性突破,在476.2 FPS的高维特征渲染和384.6 FPS的开放词汇查询速度下,较前代分别提升42倍和47倍。该研究通过将3D高斯点视为全局字典的稀疏编码,创新构建了无需高维解码器的三维稀疏系数场,配合CUDA优化的高效splatting方法,在保证低计算成本的同时输出高质量特征。实验证明,该系统不仅大幅提升实时性能,还保持了优异的查询准确性,为AR、机器人等实时应用场景

2025-10-18 09:16:37 1401

原创 【三维重建】即插即用的3DGS的PDE优化:高质量渲染和重建

本文提出了一种基于偏微分方程(PDE)的即插即用优化方法,显著提升了3D高斯分布场景表示(3DGS)在复杂场景中的渲染与重建质量。针对3DGS优化过程中因冗余几何结构导致的模糊和漂浮伪影问题,该方法从理论层面将3DGS优化建模为PDE问题,创新性地引入粘性项稳定优化过程,并采用材料点法(MPM)求解。通过设计高斯函数密集化策略和粒子约束机制,结合粒子网格方法(P2G/G2P)调控粒子运动,实现了对细节的精细控制。实验结果表明,该方法在渲染与重建质量上达到领先水平。

2025-10-10 21:20:49 1795

原创 【三维重建】MapAnything:通用前馈度量三维重建

摘要: MapAnything是一个基于Transformer的前馈模型,能够通过单张或多张图像及可选几何输入(如相机参数、位姿、深度等)直接回归三维场景几何和相机参数。该模型采用分解表示方法,输出深度图、局部光线图、相机姿态和全局度量比例因子,将局部重建提升为全局一致的度量框架。通过跨数据集统一训练和输入增强技术,MapAnything可高效处理多种三维视觉任务(如SFM、MVS、深度估计等),性能优于或媲美专业模型。实验表明,其联合训练特性显著,为通用三维重建主干网络提供了新思路。模型通过多损失函数端到

2025-09-30 16:14:12 1399

原创 【三维分割】SceneSplat:基于视觉-语言预训练的3DGS场景理解

本文提出SceneSplat,一种基于3D高斯泼溅与视觉语言预训练的场景理解方法。通过结合Langevin动力学与随机梯度Langevin动力学(SGLD),在优化过程中引入噪声项,避免陷入局部最优。针对3D高斯泼溅(3DGS)的改进包括:1)用各向异性噪声扰动高斯函数;2)以"relocate"替代传统分裂/克隆操作,保持高斯分布一致性;3)引入不透明度与尺寸正则化。此外,采用概率化建模框架实现高效的多视角特征聚合,将2D语言特征提升至3D空间。该方法在保持3DGS实时渲染优势的同时,

2025-09-26 22:39:41 1262

Vjepa v2是meta发布的新的世界模型

Vjepa v2是meta发布的新的世界模型

2025-06-17

Vjepa v2是meta发布的新的世界模型

Vjepa v2是meta发布的新的世界模型

2025-06-17

机械臂展示,VJEPA2的效果展示

机械臂展示,VJEPA2的效果展示

2025-06-17

图像图形学报:2023年第一期:图像融合综述

主要分为 通用影像融合、医学影像融合、遥感影像融合三大类

2023-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除