- 博客(75)
- 资源 (1)
- 收藏
- 关注
原创 【论文精读】Triplane Meets Gaussian Splatting
清华大学与VAST团队在CVPR 2024提出TriplaneGaussian方法,通过混合3D高斯与Triplane表示实现高效单视图3D重建。该方法结合点云解码器和Triplane解码器,利用投影感知条件与几何感知编码提升重建质量。实验表明,相比Point-E、Shap-E等方法,其重建时间仅需0.14秒,且在新视图合成指标(PSNR 23.15、LPIPS 0.13)和渲染速度(0.003秒/帧)上显著领先。该工作为实时3D内容生成提供了新思路。代码已开源:https://github.com/
2025-06-02 02:59:30
939
原创 【论文精读】No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images
本文提出NoPoSplat,一个能够从unposed sparse多视图图像中直接重建 **3D Gaussian 表达的场景**的前馈模型。该方法完全基于**photometric loss**进行训练,不依赖相机姿态或深度信息,并且在推理时可实时生成 3D Gaussians。NoPoSplat 通过将其中一个视角作为**canonical space**来避免传统方法中的姿态变换误差。为解决尺度歧义问题,作者提出了将相机内参编码为token的方法,使网络能更准确地预测场景比例。实验表明,该方
2025-04-17 20:22:52
646
原创 【论文精读】COLMAP-Free 3D Gaussian Splatting
本论文提出一种无需COLMAP等SfM预处理的3D-GS,用于无相机位姿信息的场景重建和新视角合成。与NeRF等隐式方法不同,GS提供了显式点云表达,使得可以直接对几何结构和相机位姿进行优化。该方法通过逐帧处理输入视频,利用视频的时间连续性,逐步建立和优化一组全局高斯点云,并在过程中联合优化相机位姿。实验表明,CF-3DGS在大幅度相机运动下仍能实现优于现有方法的合成质量和位姿估计准确性。
2025-04-17 17:25:45
1167
原创 【论文精读】NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior
本论文提出 NoPe-NeRF:一种在没有相机位姿先验的情况下训练 NeRF 的方法。该方法结合了从单目深度估计网络生成的深度图,通过训练过程中优化其尺度和偏移,使其成为多视角一致的几何先验。引入的两个新颖的损失函数——点云 Chamfer 距离损失与基于深度的表面渲染损失——有效约束了图像之间的相对位姿,从而提高了新视角合成的质量和相机姿态估计的准确性。
2025-04-17 04:02:17
873
原创 【论文简读】TimeNeRF
文章试图构建generalizable NeRF,并且sparse view的setting,能够合成在时间t的新视角。具体而言,希望能够在任意时间、任意视角合成新视图的通用神经渲染方法,尤其在只有少量输入视图的情况下仍能表现优异。该方法针对当前 NeRF 技术难以处理时间动态变化和少样本泛化的问题,提出一种结合多视图立体视觉、神经辐射场、内容-环境解耦的新型框架,能够在无需针对每个场景重新优化的前提下,生成能够随时间变化的高质量视图,且实现日夜等复杂时间动态的平滑过渡。
2025-03-16 05:29:36
733
原创 【论文精读】ACE-Zero
本文提出了一种基于visual relocalizer的新颖结构,从无位姿图像中恢复相机参数(姿态和内参)。不同于传统基于特征匹配的SfM(如COLMAP),作者将SfM过程重新解释为基于场景坐标回归 (Scene Coordinate Regression)的增量重定位问题。该方法能无需位姿先验、高效地从上千张图像中重建隐式场景表示,并能达到接近传统SfM的姿态估计精度,最终通过新视角合成验证其效果。
2025-03-11 23:58:36
1020
原创 【论文精读】GaussReg: Fast 3D Registration with Gaussian Splatting
Point Cloud Registration是大规模 3D 场景扫描和重建的核心问题。随着深度学习的发展,该任务已趋于成熟。然而,NeRF作为一种新兴的场景表示方法,在大规模场景重建中的注册问题尚未得到充分探索。这主要是由于其隐式表示方式,使得难以建模两个场景之间的几何关系。现有方法通常需要将隐式表示转换为显式表示再进行配准。最近,Gaussian Splatting被剔除,它使用显式3D高斯分布,既保持了高质量渲染,又提高了渲染速度。在本研究中,我们探索基于GS的3D配准任务,并提出了一种新颖的。
2025-03-09 21:18:46
1081
原创 【论文精读】FreeSplat
3DGS的generalization能力较弱,现有方法主要局限于窄范围视角的插值,无法有效定位 3D 高斯点,导致难以实现自由视角合成。低成本的跨视角特征聚合 (Low-cost Cross-View Aggregation),通过在相邻视角间构建自适应代价体 (adaptive cost volume),并采用多尺度特征聚合来增强特征匹配。像素级三元组融合 (Pixel-wise Triplet Fusion, PTF),用于消除多视角重叠区域的冗余高斯点,并聚合跨视角的特征。
2025-03-09 20:19:55
691
原创 【论文精读】FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views
FLARE(Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views)是一种前馈神经网络模型,旨在从未校准的稀疏视图(仅 2-8 个输入)推断高质量的相机姿态和 3D 几何结构。它通过级联学习范式,首先估计相机姿态,然后利用估计的姿态来学习几何和外观。
2025-03-08 00:58:23
1050
原创 【论文精读】FoundationStereo: Zero-Shot Stereo Matching
stereo matching目前还缺乏强悍的zero shot generalization,我们介绍FoundationStereo,一种有强大泛化能力的深度估计模型。
2025-03-08 00:23:15
1310
2
原创 【环境搭建】使用openSfM+MVSNet重建稠密点云
本帖详细介绍了如何使用openSfM+MVSNet对真实采集的数据进行稀疏重建与稠密重建,并针对一些真实场景下可能遇到的问题进行了整理。
2024-07-24 03:00:21
1616
原创 【论文精读】RayMVSNet
作者希望直接优化每个camera ray上的深度值,所以提出这个RayMVSNet来学习1D implicit field的序列预测。使用了传统MVS里的方法进行极线搜索和transformer提取特征,并且使用了mutli-task learning。
2024-06-19 21:36:35
1145
原创 【论文精读】HAMMER: Learning Entropy Maps to Create Accurate 3D Models in Multi-View Stereo
为了减少在深度图融合点云参数调整上的实验负担,可以学习基于entropy的filtering mask进而根据两个视角的几何验证来重建三维模型。并且,提出的网络计算开销不大,训练只需要6GB,测试时,3.6GB即可处理1920*1024的图片,性能也和sota很接近。
2024-01-08 21:04:04
1190
原创 【论文精读】CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive Learning
无监督多视图立体方法最近取得了可喜的进展。然而,以前的方法主要依赖于光度一致性假设,这可能会受到两个限制:无法区分的区域和依赖于视图的效果,例如低纹理区域和反射。为了解决这些问题,我们提出了一种新的双层对比学习方法,称为 CL-MVSNet。具体来说,我们的模型将两个对比分支集成到无监督 MVS 框架中,以构建额外的监督信号。一方面,我们提出了图像级对比分支来引导模型获得更多的上下文感知,从而在不可区分的区域中实现更完整的深度估计。
2023-11-13 02:04:47
1372
9
原创 【论文精读】Pose-Free Neural Radiance Fields via Implicit Pose Regularization
Pose-free的NeRF最近很火,近期的工作大部分先是使用渲染的图片训练一个粗略的姿态估计器,再对NeRF和姿态进行联合优化。然而,训练期间只使用了rendered image,姿态估计经常偏移或不准确,因为渲染图与真实图片之间本来就有domain gap。这导致了很差的robustness,并且在联合优化中会陷入局部最优。我们设计了IR-NeRF,使用implicit pose regularization来细化pose estimator。
2023-11-13 01:24:15
843
原创 【论文精读】DMVSNet: Constraining Depth Map Geometry for Multi-View Stereo
现有方法忽略了一个事实,即合适的深度几何形状在 MVS 中也至关重要。在本文中,我们证明了即使使用相同的深度预测误差,不同的深度几何形状也具有显着的性能差距。因此,我们引入了由鞍形细胞组成的理想深度几何形状,其预测深度图围绕真实表面向上和向下振荡,而不是保持连续且平滑的深度平面。为了实现这一目标,我们开发了一个名为 Dual-MVSNet (DMVSNet) 的从粗到细的框架,它可以产生一个振荡的深度平面。
2023-11-12 22:20:44
709
原创 【论文精读】ET-MVSNet: When Epipolar Constraint Meets Non-Local Operators in Multi-View Stereo
learning-based MVS严重依赖特征匹配。一个有效的解决方案是应用非局部的特征聚合,例如 Transformer。尽管这些技术很有用,但会给MVS带来大量的计算开销。每个像素都密集地关注整个图像。相反,我们建议将非局部特征增强限制在一对线内:每个点仅关注相应的一对极线。我们的想法受到经典对极几何的启发,它表明具有不同深度假设的一个点将投影到另一个视图上的极线。该约束将2D搜索空间减少为立体匹配中的极线。类似地,这表明MVS的匹配是为了区分位于同一条线上的一系列点。
2023-11-09 01:10:13
1019
3
原创 多卡训练Runtime Error: Function BroadcastBackward returned an invalid gradient at index XXX
代码在单卡训练时没有问题,但是在多卡训练(DP或者DDP模式)时,会在loss.backward()处报错,但是报错并不详细,只停留在loss.backward(),再往后就是pytorch后端C++代码了。可见是反向传播时shape不一致。但是经过检查,我的loss并没有出错,单卡训练测试也没问题,这个就比较棘手了。
2023-11-02 16:45:51
780
2
原创 使用telegram机器人发送通知
在训练深度学习模型时,除了粗略估计外,很难预测训练何时结束。此外,我们可能还想随时随地查看训练情况,如果每次都需要登录回服务器的话并不方便。因此,为我们的训练设置自动通知会大有裨益。
2023-10-20 20:35:54
7120
原创 《计算机视觉中的多视图几何》笔记(0)
计算机视觉的一大研究目标是使计算机具有通过2D图像认知3D环境信息的能力。近年来,随着SLAM、SfM+MVS、NeRF等技术的爆火和相关产业的蓬勃发展,越来越多的人加入到三维重建的领域当中。
2023-09-13 05:41:56
401
原创 【论文精读】MVSDF: Learning Signed Distance Field for Multi-view Surface Reconstruction
最近关于隐式神经表示的研究在多视图表面重建方面显示出了有希望的结果。然而,大多数方法仅限于相对简单的几何形状,并且通常需要干净的对象mask来重建复杂和凹面对象。在这项工作中,我们引入了一种新颖的神经表面重建框架,该框架利用立体匹配和特征一致性的知识来优化隐式表面表示。更具体地说,我们应用有符号距离场(SDF)和表面光场分别表示场景几何形状和外观。SDF由立体匹配的几何结构直接监督,并通过优化多视图特征一致性和渲染图像的保真度进行细化。我们的方法能够提高几何估计的鲁棒性并支持复杂场景拓扑的重建。
2023-08-21 04:09:06
794
原创 使用localhost访问远程服务器的tensorboard
16006:127.0.0.1代表localhost的16006端口,6006代表远程服务器tensorboard服务的端口。在远程服务器上运行代码,想要通过tensorboard查看,需要将远端的端口映射到本地。
2023-08-07 01:39:50
4323
原创 【论文精读】NR-MVSNet:Learning Multi-View Stereo Based on Normal Consistency and Depth Refinement
提出了一种由粗到细的结构,具有基于正态一致性模块(DNHC)的深度假设,以及具有可靠注意模块(DRRA)的深度细化。DNHC从具有相同法线的相邻像素收集深度假设,因此预测的深度更平滑准确,尤其是在无纹理和重复纹理区域。DRRA用于更新粗略阶段的初始深度图,它可以结合参考图像的特征和cost volume特征来提高深度估计精度并解决累积误差问题。
2023-08-03 21:09:30
694
4
原创 《视觉SLAM十四讲》笔记(4-6)
每个李群都有与之对应的李代数,李代数描述了李群的局部性质。李代数由一个集合V、一个数域F和一个二元运算[ , ](又称李括号)组成。如果它们满足以下几条性质,则称( V , F , [ , ] )为一个李代数,记作g。封闭性双线性自反性(自己与自己的运算为零)雅可比等价。
2023-07-30 02:04:41
374
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人