- 博客(182)
- 收藏
- 关注
原创 【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南
Nerfstudio,一个用于NeRF开发的模块化PyTorch框架。框架中用于实现基于NeRF的方法的组件即插即用,使得研究人员和相关从业者可以轻松地将NeRF集成到自己的项目中。框架的模块化设计支持实时可视化工具,导入用户真实世界捕获的数据集外(in-the-wild)数据,以及导出为视频,点云和网格表示的工具。近期,还导入了InstantNGP、3D Gaussian Splatting等最新重建算法。
2024-04-08 23:05:42
18558
33
原创 【世界模型】WorldWarp:异步视频扩散的3D重建
摘要 《WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion》提出了一种创新方法来解决长视频生成中的几何一致性问题。该方法通过3D高斯泼溅(3DGS)构建在线几何缓存,将历史内容显式变形为新视角作为结构支架。针对静态变形导致的遮挡问题,设计了时空扩散模型(ST-Diff),其核心创新是时空变化的噪声调度机制:空白区域施加全噪声触发内容生成,变形区域则采用局部噪声进行细节优化。该方法融合了三维几何引导与扩散模型纹理生成的优势,
2026-03-10 16:15:30
477
原创 【前馈三维重建】YoNoSplat:仅需单一模型的前馈 3DGS
YoNoSplat提出了一种前馈模型,可从任意数量无位姿图像重建高质量3D高斯场景。其核心创新包括:1)混合训练策略,通过逐步引入预测位姿缓解任务耦合问题;2)局部预测与全局聚合框架,结合成对相机距离归一化和内参条件嵌入解决尺度歧义;3)高效架构设计,在2.69秒内完成100视角重建。实验表明,该方法在无位姿和有位姿场景下均达到SOTA性能,同时支持内参预测,适用于非校准输入。
2026-03-05 14:42:51
474
原创 【三维重建】ReSplat:学习递归高斯 SPLATS
摘要: ReSplat提出了一种基于循环高斯扩散的3D场景重建方法,通过迭代优化3D高斯分布(3DGS)实现高效渲染。该方法利用3DGS渲染误差作为反馈信号,驱动循环网络学习高斯参数更新,无需显式计算梯度,显著提升了跨数据集、视图数量和分辨率的泛化能力。核心创新包括:(1) 16倍降采样的紧凑初始化模型,大幅减少高斯数量;(2) 结合kNN与全局注意力的3D上下文聚合;(3) 轻量级MLP解码器生成初始高斯参数。实验表明,该方法在DL3DV等数据集上,以更少的高斯数量和更快的渲染速度,实现了业界领先的性能。
2026-03-04 11:34:21
547
原创 【前馈三维重建】AnySplat: 无约束视图的前馈3DGS生成
摘要: 中国科学技术大学等机构提出的AnySplat是一种前馈网络,能够从未校准图像集合中合成新视角并预测相机位姿。该模型通过单次前向传播生成3D高斯分布(3DGS)基元及相机参数,无需场景级优化或已知相机姿态,适用于无约束多视角数据集。创新性地引入可微分体素化模块降低计算成本,并设计几何一致性损失消除深度预测的分层伪影。实验表明,AnySplat在稀疏/密集视角下均达到与姿态感知基线相当的质量,显著优于现有无姿态方法,且渲染速度优于优化型神经场,为实时新视角合成提供可能。 关键点: 单次预测:联合输出3D
2026-02-27 15:27:27
644
原创 【三维重建】SplatSuRe: 多视图一致的3DGS选择性超分
摘要: 《SplatSuRe》提出了一种针对3D高斯泼溅(3DGS)的多视角一致性超分辨率方法。传统超分技术独立增强每张低分辨率(LR)图像,导致多视角不一致和模糊渲染。SplatSuRe创新性地选择性应用超分,仅对缺乏高频监督的欠采样区域进行增强。其核心是通过几何感知的高斯保真度评分(基于投影半径比率)动态生成视角专属权重图,指导超分内容的注入位置。实验表明,该方法在《Tanks & Temples》等数据集上显著提升细节保真度,尤其在前景区域效果突出,且避免了过度增强引发的多视角冲突。 关键词:
2026-02-26 10:40:28
653
原创 【点云分割】SNAP:面向任意点云的任意分割
摘要 SNAP提出了一种统一的3D点云分割模型,支持跨场景和多种交互方式(空间点击/文本提示)。针对现有方法局限于单一场景类型和交互形式的问题,该研究通过训练涵盖7个多领域数据集并采用领域自适应归一化,有效防止负迁移现象。关键技术包括:基于PTv3的点云编码、域特定归一化处理、空间提示与文本提示的双模分割机制。实验表明,SNAP在8/9个零样本基准测试中达到空间提示分割的SOTA水平,在5个文本提示基准测试中均表现优异,验证了统一模型超越专用方法的潜力,为可扩展3D标注提供了实用工具。
2026-02-09 16:01:07
670
原创 【前沿】2025年度三维视觉前沿趋势与十大进展(Mini3DV)
三维视觉迎来战略发展机遇,AI领域领军人物指出世界模型、空间智能与具身智能是关键方向。2025年三维视觉已深度整合Transformer架构,形成"多模感知-三维建模-四维生成-实时交互"一体化智能架构雏形。五大前沿趋势显现:1)前馈三维重建降低高质量3D内容制作门槛;2)三维生成与重建技术加速融合;3)视频生成推动世界模型与具身智能发展;4)人类行为数据成为具身智能训练核心资源;5)具身智能训练范式向交互驱动强化学习演进。VGGT等前馈式重建技术突破实现高效时空三维理解,为空间智能奠定
2026-02-04 18:51:24
918
原创 【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制
我们 提出物理可信ISP(PPISP)校正模块,通过基于物理原理且可解释的变换,有效分离相机固有效应与拍摄依赖效应 。专用 PPISP 控制器基于输入视角训练,可预测新视角的ISP参数,其工作原理类似于真实相机的自动曝光和自动白平衡功能。该设计无需真实图像,即可对新视角进行真实且公平的评估。 PPISP 在标准基准测试中达到当前最佳性能,同时提供直观控制并支持元数据整合(当可用时)。
2026-01-30 20:40:33
710
原创 【视频生成】SRENDER:基于<稀疏扩散>与<3D渲染>的像机轨迹视频生成
本文提出了一种针对静态场景的相机条件视频生成新策略:先利用基于扩散的生成模型生成稀疏关键帧集,再通过三维重建与渲染合成完整视频。通过将关键帧转化为三维表示并渲染中间视图,确保几何一致性的同时,将生成成本分摊至数百帧。我们进一步引入预测模型,可为特定摄像机轨迹预测最优关键帧数量,使系统能自适应分配计算资源。最终提出的srender方法采用极简关键帧处理简单轨迹,采用密集关键帧处理复杂运动轨迹。该方法在生成20秒视频时,生成速度较基于扩散的基准模型提升40倍以上,同时保持高视觉保真度与时间稳定性,为高效可控的视
2026-01-29 17:24:36
775
原创 【三维生成】ShapeR:单目视频的条件三维形状生成
ShapeR:基于随手拍摄的多模态3D物体生成方法 摘要:ShapeR提出了一种创新方法,利用随手拍摄的序列数据生成高质量3D物体形状。该方法通过整合视觉惯性SLAM的稀疏点云、多视角图像和机器生成描述文字,采用rectified flow transformer架构实现多模态条件下的形状生成。为解决现实场景中的遮挡和噪声问题,研究团队设计了包含实时数据增强和两阶段课程学习的训练策略,并引入包含178个真实场景物体的评估基准。实验表明,ShapeR在Chamfer距离指标上较现有最佳方法提升2.7倍,显著提
2026-01-28 16:39:15
895
原创 【视频生成】HY-World 1.5:实时延迟和几何一致的交互式世界模型系统(腾讯混元)
HY-World 1.5:实时交互式世界建模系统框架 腾讯推出的HY-World 1.5突破了传统3D世界建模的局限性,通过创新的WorldPlay流式视频扩散模型,实现了24FPS的实时交互式世界生成。该系统具备四大核心技术: 1)双动作表征融合离散与连续控制信号; 2)重构上下文记忆机制保持长期几何一致性; 3)WorldCompass强化学习框架提升动作跟随能力; 4)上下文强制蒸馏技术平衡速度与精度。基于32万段多源训练数据(含游戏、真实3D、合成及自然场景),模型支持第一/第三人称视角,可应用于三
2026-01-16 16:30:05
989
原创 【无标题】ASTRA:自回归去噪的通用交互式世界模型
Astra模型提出了一种通用交互式世界建模新范式,新性地将自回归长时程建模与扩散高保真合成相结合,通过噪声增强历史记忆机制和动作感知适配器,在自动驾驶、机器人操作等多样化场景中实现了高精度未来预测与动作交互。实验表明,Astra在保真度、远距离预测和动作对齐方面显著超越现有世界模型,为构建可交互、高一致性的通用视觉世界模型提供了新思路。
2026-01-15 19:18:52
1070
原创 【平面重建】3D高斯平面:混合2D/3D光场重建(NeurIPS2025)
摘要: 本文提出3D Gaussian Flats(3DGS-Flats),一种创新的2D/3D混合表征方法,用于解决现有辐射场技术在重建平面无纹理表面时的局限性。通过联合优化约束平面(2D)高斯函数与自由形式(3D)高斯函数,该方法动态检测并优化平面区域,显著提升视觉保真度与几何精度。实验表明,在ScanNet++和ScanNetv2数据集上,该方法实现了最先进的深度估计效果,并在网格提取中表现优异,无需过度拟合特定相机模型,为室内场景高质量重建提供了高效解决方案。 方法: 混合表示:结合2D平面高斯(精
2026-01-08 18:11:18
1016
原创 【三维重建】IBGS:基于图像的高斯溅射(NeurIPS 2025)
本文提出IBGS方法,通过结合3D高斯溅射(3DGS)与图像残差学习,显著提升了新型视图合成(NVS)的质量。传统3DGS受限于低阶球面谐波,难以捕捉高频细节和视点相关效应。IBGS创新性地将像素颜色分解为基础色(3DGS渲染)和残差(从邻近训练图像学习),在保持存储效率的同时实现了精细色彩建模。具体实现包括:1)基于高斯中心与法向量的多视角特征提取;2)轻量级网络预测颜色残差;3)曝光校正模块处理光照差异。实验表明,该方法在标准NVS基准测试中显著优于传统高斯溅射方法,有效平衡了渲染质量与计算开销。
2025-12-29 10:17:17
839
原创 【三维生成】SHARP:一秒内合成单目视图(苹果公司)
本文提出了一种基于单张图像的快速逼真视图合成方法SHARPa,能够在标准GPU上通过神经网络单次前向传播在1秒内生成场景的3D高斯表示。该方法采用深度调节模块解决单目深度估计的模糊性问题,通过高斯解码器优化初始高斯属性,并支持实时渲染新视角图像。实验结果表明,该方法在多个数据集上显著优于现有技术,LPIPS降低25%-34%,DISTS减少21%-43%,同时将合成时间缩短三个数量级。网络结构包含3.4亿可训练参数,能处理1536×1536像素输入并生成约120万高斯分布。
2025-12-25 18:48:56
967
原创 【动态重建】VGGT4D:用于4D场景重建的视觉Transformer运动线索挖掘
本文提出VGGT4D方法,无需额外训练即可将3D基础模型VGGT扩展为4D场景重建工具。该方法通过挖掘VGGT全局注意力层中隐含的动态线索,利用格拉姆相似性统计和时间窗口聚合生成动态mask,并结合投影梯度感知策略优化mask边界。实验表明,VGGT4D在六个数据集上实现了优于现有方法的动态物体分割、相机姿态估计和密集重建性能,并能单次处理超过500帧的长序列。核心创新在于:1) 无训练扩展3D模型至4D重建;2) 通过Gram相似性统计和梯度优化实现稳定的动态-静态解耦;3) 在多个任务上展现卓越性能与泛
2025-12-12 12:40:05
1184
原创 【三维重建】G4SPLAT:生成先验的几何引导高斯
本文提出G4SPLAT方法,通过几何引导的高斯泼溅与生成先验,解决现有三维重建方法在几何监督和多视角一致性方面的局限。首先利用平面结构推导精确深度图,为观测与未观测区域提供可靠监督;其次将几何引导贯穿生成流程,改善可见性估计与新视角选择,增强多视角一致性。实验表明,该方法在Replica等数据集上几何与外观重建均优于基线,尤其在未观测区域表现突出,并支持单视图输入和非摆拍视频,具有较强的泛化能力。
2025-12-05 16:13:58
1047
原创 【三维重建】噪声引导Splatting的透明度修复
本文提出了一种解决3D高斯泼溅(3DGS)中虚假透明度问题的新方法Noise Guided Splatting(NGS)。3DGS在重建不透明物体时,由于仅优化RGB图像的光度损失而缺乏不透明度约束,常导致表面出现错误的透明效果,在交互式观看时尤为明显。NGS通过在物体体积内注入随机颜色的不透明噪声高斯,引导优化过程优先处理不透明表面,同时保持渲染质量。实验表明,NGS能显著减少虚假透明度,且在标准渲染指标上保持竞争力。此外,作者提出了基于透射率的量化评估方法,并构建了专门的数据集来验证方法的有效性。这项工
2025-12-05 15:16:15
821
原创 【三维重建】Co-Me:置信度引导token合并:用于视觉几何Transformer
摘要 本文提出置信度引导的token合并方法Co-Me,用于加速视觉几何Transformer而不需重新训练模型。该方法通过轻量级置信度预测器对token进行排序,选择性合并低置信度token以减少计算量。Co-Me包含置信度蒸馏和token合并两阶段:首先从ViT模型中提取置信度预测模块,然后在推理时生成合并mask指导token操作。实验表明,Co-Me在VGGT和MapAnything等模型上实现7.2-11.3倍加速,同时保持深度估计等任务的性能。该方法采用多项优化技术,包括注意力偏差校正和高效实现
2025-12-03 16:59:40
681
原创 【图像生成】Back to Basics:让去噪生成模型去噪
当前的去噪扩散模型并不真正实现“去噪”,即它们无法直接生成清晰图像。这类模型本质上是预测噪声或含噪数据。本文提出,预测清晰数据与预测含噪数据存在本质差异。根据流形假设,自然数据应分布在低维流形上,而含噪数据则不然。基于此假设,我们主张采用直接预测清晰数据的模型,这使得看似容量不足的网络能在极高维空间中有效运作。研究表明,无需分词器、无需预训练、无需额外损失函数的简单大块像素Transformer,也能成为强大的生成模型。我们的方法本质上就是“图像Transformer”(JiT)。在ImageNet数据集上
2025-12-02 14:58:05
1161
原创 【三维重建】【深度估计】DepthAnything3:从任意视图恢复视觉空间
DepthAnything3:从任意视角恢复视觉空间 摘要:DepthAnything3(DA3)是由字节跳动提出的创新模型,能够从任意数量视觉输入(单图/多视图/视频)预测空间一致的几何结构,无论是否已知相机姿态。该模型突破性地采用单一标准Transformer(DINO编码器)作为骨干网络,结合深度-光线预测目标,简化了传统多任务学习的复杂性。通过师生训练范式,DA3在细节保留和泛化能力上媲美前代DA2。研究建立了包含相机姿态估计、多视角几何重建和视觉渲染的新基准,实验表明DA3在相机姿态准确率(超越V
2025-11-27 22:03:10
1482
原创 【三维重建】FastGS:100秒内训练3D高斯溅射
FastGS提出一种高效训练3D高斯溅射(3DGS)的新框架,通过多视图一致性机制优化高斯分布管理。相比现有方法仅依赖高斯属性评分,FastGS基于重建质量评估高斯基元重要性,设计了稠密化策略VCD和剪枝策略VCP,并引入Compact Box加速光栅化。实验表明,FastGS在Mip-NeRF 360等数据集上训练速度较SOTA提升3-15倍,同时保持渲染质量,其Big版本进一步提升性能。该方案具有通用性,适用于动态场景、稀疏视图等多种重建任务。
2025-11-18 11:28:45
2105
原创 【动态高斯重建】论文集合:从4DGT到OMG4、4DSioMo
4DGT——基于Gaussian Splating的 4D Transformer,专为动态场景重建设计,其训练数据完全来自真实场景的单目posed视频。通过将4DGS作为归纳偏置,该模型成功融合静态与动态元素,能够建模具有不同物体生命周期的复杂时变环境。我们在训练中创新性地引入密度控制策略,使4DGT既能处理更长的时空输入数据,又能在运行时保持高效渲染。模型采用滚动窗口方式处理64帧连续posed画面,持续预测场景中的4DGS。与基于优化的方法不同,
2025-11-15 22:55:08
1782
原创 【三维编辑】DREAMCATALYST:平衡可编辑性和ID的快速高效3D编辑
DreamCatalyst: 快速高质量3D编辑框架 本文提出DreamCatalyst框架,从扩散逆过程的角度重新审视分数蒸馏采样(SDS),解决了现有3D编辑方法训练时间长、质量低的问题。通过将采样动态融入SDS框架,该方法实现了: 快速模式 - 比现有NeRF编辑方法快23倍 高质量模式 - 在速度提升8倍的同时获得更优结果 技术核心包括: 建立SDS与DDIM采样的理论联系 设计匹配扩散时间步功能的优化函数 引入显式身份保持项与编辑梯度项 实验表明该方法在NeRF和3DGS编辑任务中均优于当前最优技
2025-11-15 22:07:33
868
原创 【大场景重建】SkyfallGS:从卫星图像中合成沉浸式3D城市场景
本文提出一种两阶段方法,将卫星图像转化为逼真的3D城市场景。第一阶段采用3D高斯点云模型进行重建,结合光照自适应外观建模和正则化处理解决多日期影像差异问题。第二阶段通过课程学习策略迭代优化,使用文本引导的扩散模型编辑技术逐步降低视角,有效恢复被遮挡区域并提升纹理质量。实验在DFC2019和Google Earth数据集上验证了该方法优于现有基准,能生成几何结构完整且纹理忠实的高质量3D城市场景。
2025-11-10 11:33:28
1624
2
原创 【视频生成】GVS:生成式视图拼接
摘要 MIT CSAIL和RunwayML团队提出生成式视图拼接(GVS)技术,解决自回归视频扩散模型在摄像机引导生成中的局限性。传统方法因无法利用未来条件导致场景与轨迹冲突,GVS通过并行采样整个序列确保生成内容与预设轨迹一致。关键技术包括:1)将扩散拼接技术从机器人规划拓展至视频生成,兼容现有视频扩散模型;2)开发Omni Guidance机制,结合历史与未来预测提升时间一致性;3)实现闭环控制支持长距离连贯性。实验表明,GVS能稳定生成符合复杂摄像机路径(如"不可能楼梯")的无碰撞
2025-11-10 11:22:28
1054
原创 【三维生成】FlashWorld:秒级生成高质量3D场景
FlashWorld:秒级生成高品质3D场景 FlashWorld提出了一种突破性的3D场景生成方法,可在数秒内从单图或文本生成高质量3D场景,渲染速度比现有技术快10-100倍。该研究通过双模式预训练和跨模式后训练的创新框架,解决了传统多视图导向方法(MV)与3D导向方法之间的矛盾:MV模式虽画质高但缺乏3D一致性,3D模式虽保一致性但画质欠佳。 核心贡献包括: 双模式预训练:基于视频扩散模型初始化,构建同时支持MV和3D模式的多视图扩散模型 跨模式后训练:采用DMD2蒸馏技术,将高质量MV模式的知识迁移
2025-11-10 11:14:34
826
原创 【三维分割】LangSplatV2:高维的语言3DGS,快到450+FPS
LangSplatV2:突破实时3D语言高维特征渲染技术 哈佛、清华等机构联合提出的LangSplatV2系统实现了三维语言高斯的革命性突破,在476.2 FPS的高维特征渲染和384.6 FPS的开放词汇查询速度下,较前代分别提升42倍和47倍。该研究通过将3D高斯点视为全局字典的稀疏编码,创新构建了无需高维解码器的三维稀疏系数场,配合CUDA优化的高效splatting方法,在保证低计算成本的同时输出高质量特征。实验证明,该系统不仅大幅提升实时性能,还保持了优异的查询准确性,为AR、机器人等实时应用场景
2025-10-18 09:16:37
1305
原创 【三维重建】即插即用的3DGS的PDE优化:高质量渲染和重建
本文提出了一种基于偏微分方程(PDE)的即插即用优化方法,显著提升了3D高斯分布场景表示(3DGS)在复杂场景中的渲染与重建质量。针对3DGS优化过程中因冗余几何结构导致的模糊和漂浮伪影问题,该方法从理论层面将3DGS优化建模为PDE问题,创新性地引入粘性项稳定优化过程,并采用材料点法(MPM)求解。通过设计高斯函数密集化策略和粒子约束机制,结合粒子网格方法(P2G/G2P)调控粒子运动,实现了对细节的精细控制。实验结果表明,该方法在渲染与重建质量上达到领先水平。
2025-10-10 21:20:49
1768
原创 【三维重建】MapAnything:通用前馈度量三维重建
摘要: MapAnything是一个基于Transformer的前馈模型,能够通过单张或多张图像及可选几何输入(如相机参数、位姿、深度等)直接回归三维场景几何和相机参数。该模型采用分解表示方法,输出深度图、局部光线图、相机姿态和全局度量比例因子,将局部重建提升为全局一致的度量框架。通过跨数据集统一训练和输入增强技术,MapAnything可高效处理多种三维视觉任务(如SFM、MVS、深度估计等),性能优于或媲美专业模型。实验表明,其联合训练特性显著,为通用三维重建主干网络提供了新思路。模型通过多损失函数端到
2025-09-30 16:14:12
1358
原创 【三维分割】SceneSplat:基于视觉-语言预训练的3DGS场景理解
本文提出SceneSplat,一种基于3D高斯泼溅与视觉语言预训练的场景理解方法。通过结合Langevin动力学与随机梯度Langevin动力学(SGLD),在优化过程中引入噪声项,避免陷入局部最优。针对3D高斯泼溅(3DGS)的改进包括:1)用各向异性噪声扰动高斯函数;2)以"relocate"替代传统分裂/克隆操作,保持高斯分布一致性;3)引入不透明度与尺寸正则化。此外,采用概率化建模框架实现高效的多视角特征聚合,将2D语言特征提升至3D空间。该方法在保持3DGS实时渲染优势的同时,
2025-09-26 22:39:41
1227
原创 【三维重建】Octree-GS:基于LOD的3DGS实时渲染(TPAMI2025)
Octree-GS提出了一种基于八叉树结构的神经场景表示方法,通过分层组织锚点实现高效渲染。该方法将锚点组织为多级LOD结构,支持动态选择不同层级的锚点进行渲染,并引入渐进式训练策略优化细节。关键技术包括:1)基于观测距离和可学习偏置的锚点选择机制;2)自适应高斯控制策略,通过梯度阈值管理锚点增长;3)外观嵌入技术处理动态光照变化。实验表明,Octree-GS在保证实时渲染的同时,能有效处理大规模复杂场景,消除了传统3D-GS模型的伪影问题。
2025-09-18 16:07:22
1573
原创 【三维重建】3R-GS:优化相机位姿的3DGS最佳实践
3R-GS提出了一种联合优化3D高斯泼溅(3DGS)与相机位姿的新方法。针对传统3DGS依赖SfM初始位姿的问题,该研究通过整合MCMC采样、MLP全局位姿优化和无渲染几何约束三大创新,显著提升了复杂场景下的重建鲁棒性。实验表明,3R-GS在保持3DGS高效性的同时,实现了更精确的相机位姿估计和更高保真度的视图合成效果。该方法为3D重建与相机标定的联合优化提供了新思路。
2025-09-10 23:22:58
2691
2
原创 【三维生成】Matrix-3D:全向可探索的三维世界生成
Matrix-3D提出了一种全向可探索的三维世界生成框架,通过结合条件视频生成与全景三维重建技术,实现基于单张图像或文本提示的高质量三维场景构建。该研究首先训练了轨迹引导的全景视频扩散模型,利用场景网格渲染作为生成条件;随后提出前馈式大型全景重建模型和基于优化的流水线两种方法,将全景视频转化为三维世界。为支持训练,团队构建了包含11.6万条全景视频的Matrix-Pano数据集,所有数据均带有深度与轨迹标注。实验表明,该方法在生成广域覆盖的三维场景方面具有显著优势,为空间智能发展提供了新思路。
2025-09-07 22:37:43
1248
原创 【三维重建】ImprovedGS:提升高斯泼溅中的稠密化渲染质量
本文针对3D高斯溅射(3DGS)在实时渲染中存在的密集化策略问题,从何时密集化、如何高效密集化及减轻过拟合三个维度进行优化。研究提出边缘感知评分(Edge-Aware Score)精准筛选待分裂高斯,创新长轴分裂(Long-Axis Split)策略减少几何畸变,并设计包含恢复感知剪枝(Recovery-Aware Pruning)、多步更新(Multi-step Update)和增长控制(Growth Control)的技术方案。该方法在不增加训练或推理开销的情况下提升渲染保真度,通过优化高斯分布参数实现
2025-09-01 17:31:56
1658
原创 【三维生成】GAP: 用文本指导对任何点云进行高斯化(ICCV 2025)
《GAP: 文本引导的点云高斯化方法》 摘要:南京大学、复旦大学与华为诺亚实验室联合提出GAP框架,将无颜色点云高效转化为高质量3D高斯泼溅(3DGS)。该方法创新性地采用多视图优化策略,通过深度感知扩散模型保证视角一致性,并引入表面锚定机制约束高斯分布始终位于物体表面。为解决遮挡问题,GAP整合了基于扩散的修复技术,针对不可见区域进行智能补全。实验验证了该方法在合成数据、真实扫描场景及大规模环境中的有效性,展现出卓越的几何精度和视觉保真度。该技术为点云数据的高效可视化与编辑提供了新思路。
2025-08-22 00:05:30
1217
1
原创 【三维重建】π3:可扩展的Permutation-Equivariant(置换等变)视觉几何学习
摘要: π3是一种创新的置换等变视觉几何学习框架,通过消除传统方法对固定参考视角的依赖,实现了仿射不变的相机位姿估计和尺度不变的点云重建。该模型采用全置换等变架构,支持单目、视频和无序图像输入,在相机位姿估计、深度预测等任务中性能领先。实验表明,π3在Sintel基准测试中显著优于现有方法(ATE从0.167降至0.074),推理速度达57.4帧/秒,且具备优异的扩展性和鲁棒性。其核心创新包括局部坐标系预测、统一尺度优化和相对位姿监督,为视觉几何重建提供了更高效、稳定的解决方案。
2025-07-25 09:26:45
1626
原创 【会议】中国空间智能大会
中国空间智能大会(ChinaSI 2025)在深圳召开,聚焦空间智能领域十大前沿问题,涵盖理论构建、数据获取、多模态融合、智能体协同等关键方向。武汉大学龚健雅教授探讨了时空智能大模型的发展挑战,指出语言大模型与地理空间认知存在三大矛盾。北京大学陈宝权教授分享了现实世界数据获取与增强仿真的最新研究,浙江大学章国锋教授介绍了高效三维场景重建技术。会议展示了我国在空间智能基础理论、技术突破与产业应用的最新进展,为人工智能与空间计算的融合发展指明方向。
2025-07-20 15:52:06
1076
4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅