NeRF without poses

最新推荐文章于 2024-05-09 09:36:14 发布

IRONFISHER

最新推荐文章于 2024-05-09 09:36:14 发布

阅读量440

点赞数

文章标签：机器学习计算机视觉

本文链接：https://blog.csdn.net/IRONFISHER/article/details/130717291

版权

Introduction

NeRF的训练主要依赖于多视角的图像真值以及准确的相机坐标信息，例如每张图片都相机位姿和相机内参。而在现在主流的方法中对于相机位姿和内参的计算通常是通过经典的运动估计的方法获得（都已经集成进colmap中）。然而，某些情况下colmap会无法计算一组图片的位姿，比如运动角度过大，模糊视频等等。因此，无位姿优化的NeRF就有了研究价值。

对于位姿的优化，现在多数文章都采用了自监督的方式学习。对于位姿并没有真值与之对应，多数研究者的做法都是将位姿的优化加入NeRF体渲染的过程中，本篇文章主要介绍7篇相关论文。

iNeRF[1]

iNeRF是第一篇提出的优化无位姿NeRF的方法，其主要的思路是将位姿的优化纳入梯度流中，即每次反向传播的时候同时更新相机位姿的参数。然而相机位姿在NeRF中的运算是非线性的，主要体现在矩阵乘法上，并且直接优化相机位姿的参数[R|T]可能会导致不符合相机位姿原本应该符合的假设，比如只有6个自由度等。因此iNeRF通过把相机位姿矩阵转换成李代数的形式。在李空间中，矩阵乘法变成了变量的加法，此时便能进行梯度下降。
NeRF–[2]

同样将位姿的优化通过6自由度变量实现，直接将旋转矩阵使用Rodrigues公式进行变换，属于iNeRF的同期论文。
BARF[3]：bundle-adjusting neural radiance fields

其贡献主要在于对positional encoding的改进，通过给予一个在训练过程中不断变化的权重以给其重新赋权的方式让模型在训练中逐渐的从关注低维信息转移关注到高维信息，能较好的避免陷入局部最优而难以优化的问题。
GARF[4]（ECCV2022）

论文在实验中说明了多数情况下，标准的MLP通常都会用一个非线性函数作为激活函数。然而，坐标x作为一个低维信号，在优化的过程中通常无法有效的学得其到高维度的表示。因此，学界主要提出了三种对低维信号到高维空间的映射，将其映射到高维空间中再使用标准的MLP进行优化。目前主流的映射方式一共有三种：positional-encoding-based MLP，Sine MLP ，Gaussian MLP。论文表明了PE-MLP并不能很好的建模信号的一阶导数，而 rodrigues公式则比较强烈的依赖位姿的一阶导，因此PE-MLP经常陷入局部最优。而Sine-MLP虽然有时候能达到很好的效果，但是过于依赖初始化的值。作者则通过实验证明了Gaussian MLP可以有效的防止上面的问题。
L2GNeRF[5]：local to global registion neural radiance field（CVPR2023）

由于无位姿的NeRF在训练时很容易陷入local minima，因此论文想到将每一个采样点先通过一个local的warping矩阵映射到一个子空间中进行光线传播渲染。然后再学习一个global的warping矩阵尽量和该帧的所有采样点的矩阵对齐（通过最小化MSE loss实现），最后对于每一帧都学到了一个有效的global warping矩阵来渲染全局信息，达到了sota的效果。
NopeNeRF[6]（CVPR2023）

论文主要通过深度先验来优化相机位姿的估计，然后再进一步的优化模型结果。在训练中，首先利用已经训练好的深度估计模型计算出每张图的位姿，然后再在warm-up阶段固定学习率，结合了考虑进深度的点云损失和表面损失来优化对相机位姿的学习。之后再通过逐渐降低学习率的方法进行训练。
robust dynamic radiance fields[7]（CVPR2023）

这是第一篇用于对动态场景的相机位姿估计的学习方法，文章结合了Voxel Grid，将训练分为两阶段，在相机位姿学习阶段先将动态场景mask掉再学习相机位姿。等到相机位姿收敛后，再结合TiNeuvox[8]的架构学习整个场景的表示。最后将两阶段的结果加权平均得到最终的结果。文章在实验上证明了利用其给出的位姿甚至能在其他需要位姿先验的模型中也能达到不错的效果。

Conclusion

对于无位姿的优化论文还有很多，现在主流的做法主要有通过结合深度先验、坐标变换、神经体素等方法。然而，对于位姿的学习多数只能在静态场景中进行，而对于动态场景的位姿优化并没有特别成熟。同时，由于没有相机位姿的先验，NeRF的训练也经常陷入局部最优，并且上述几篇文章的收敛时间通常是天级的。另外，无位姿优化还无法解决动态的单目相机场景，仅仅在feedforward数据集上起了不错的效果。

参考文献：

[1] Yen-Chen L, Florence P, Barron J T, et al. inerf: Inverting neural radiance fields for pose estimation[C]//2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2021: 1323-1330.

[2] Wang Z, Wu S, Xie W, et al. NeRF–: Neural radiance fields without known camera parameters[J]. arXiv preprint arXiv:2102.07064, 2021.

[3]Lin C H, Ma W C, Torralba A, et al. Barf: Bundle-adjusting neural radiance fields[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5741-5751.

[4]Chng S F, Ramasinghe S, Sherrah J, et al. Gaussian activated neural radiance fields for high fidelity reconstruction and pose estimation[C]//Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXXIII. Cham: Springer Nature Switzerland, 2022: 264-280.

[5]Chen Y, Chen X, Wang X, et al. Local-to-Global Registration for Bundle-Adjusting Neural Radiance Fields[J]. arXiv preprint arXiv:2211.11505, 2022.

[6]Bian W, Wang Z, Li K, et al. NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior[J]. arXiv preprint arXiv:2212.07388, 2022.

[7]Liu Y L, Gao C, Meuleman A, et al. Robust Dynamic Radiance Fields[J]. arXiv preprint arXiv:2301.02239, 2023.

[8]Fang J, Yi T, Wang X, et al. Fast dynamic radiance fields with time-aware neural voxels[C]//SIGGRAPH Asia 2022 Conference Papers. 2022: 1-9.

IRONFISHER

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NeRF without poses

iNeRF是第一篇提出的优化无位姿NeRF的方法，其主要的思路是将位姿的优化纳入梯度流中，即每次反向传播的时候同时更新相机位姿的参数。在训练中，首先利用已经训练好的深度估计模型计算出每张图的位姿，然后再在warm-up阶段固定学习率，结合了考虑进深度的点云损失和表面损失来优化对相机位姿的学习。其贡献主要在于对positional encoding的改进，通过给予一个在训练过程中不断变化的权重以给其重新赋权的方式让模型在训练中逐渐的从关注低维信息转移关注到高维信息，能较好的避免陷入局部最优而难以优化的问题。
复制链接

扫一扫