- 博客(4)
- 收藏
- 关注
原创 革命性3D视觉大模型:VGGT——单网络统一解决多视图重建与跟踪任务
MetaAI与牛津大学视觉几何组联合提出的VGGT模型,首次实现纯前馈网络完成百帧级3D属性联合预测,将推理速度提升100倍。该模型通过交替注意力机制(24层Transformer交替堆叠帧内与全局注意力),单次前馈即可输出相机位姿、深度图、点云等多任务结果。在CO3Dv2、ETH3D等数据集上,VGGT的相机位姿估计(AUC@30达88.2)、点云重建(Chamfer距离0.709)等5项任务超越SOTA,且100帧处理仅需3秒(H100)。研究还揭示了异方差不确定性加权和坐标系归一化等关键技术。尽管存在
2025-06-18 16:52:16
1946
原创 “An Intelligent Agentic System for Complex Image Restoration Problems”智能图像修复新突破:基于AgenticIR的智能自主系统
提出了AgenticIR,这是一种模仿人类处理图像的方法的代理系统,通过五个关键阶段:感知、调度、执行、反思和重新调度。AgenticIR利用大型语言模型(LLMs)和视觉-语言模型(VLMs),通过文本生成互动,动态操作一个包含IR模型的工具箱。我们对VLMs进行微调以分析图像质量,并使用LLMs进行推理,逐步引导系统。
2025-05-15 15:55:49
2025
原创 DiET-GS: Diffusion Prior and Event Stream-AssistedMotion Deblurring 3D Gaussian Splatting
一种名为DiET-GS的新型3D场景重建方法,结合了扩散模型的先验知识和事件相机捕获的动态信息,以增强3D高斯喷溅算法(Gaussian Splatting)在处理模糊、噪声和高速动态场景时的效果。DiET-GS通过两个阶段进行优化:第一阶段利用事件流和扩散先验进行去模糊处理,第二阶段通过引入额外的学习参数进一步细化图像细节。
2025-05-12 18:25:28
1842
原创 Deblurring 3D Gaussian Splatting
《Deblurring3DGaussianSplatting》提出了一种基于3D高斯泼溅(3DGS)的去模糊方法,通过使用小型MLP动态调整3D高斯分布的协方差均值来模拟场景模糊度。该方法首先通过SfM从多视角模糊图像中估计相机位姿和生成稀疏点云,然后利用MLP对高斯参数进行调整,分别处理散焦模糊和相机运动模糊。在推理阶段,直接使用原始高斯参数进行光栅化,生成去模糊后的清晰图像,确保实时性(>800FPS)。
2025-05-12 17:00:37
2185
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅