论文随记｜BARF : Bundle-Adjusting Neural Radiance Fields

最新推荐文章于 2024-04-26 16:08:14 发布

少林达摩祖师

最新推荐文章于 2024-04-26 16:08:14 发布

阅读量80

点赞数

文章标签：人工智能

原文链接：https://zhuanlan.zhihu.com/p/533942110

版权

Abstarct

NeRF需要准确相机标定，本文想在不完美相机标定或完全未知标定情况下重建，学习三维表示并配准相机帧，bundle-adjustment是sfm中的一种方法。本文建立了与经典图像对齐的理论联系，且展示了coarse-to-fine配准同样适合nerf。并且发现简单地使用位置编码对合成物体（指的应该是不同于原始数据，由算法生成的数据）的校准有负面影响。

Introduction

重建物体和配准相机属于先有鸡先有蛋的问题，重建需要精确相机位姿，相机配准需要精确重建信息。sfm或slam的常用方法是通过局部配准，然后在结构和摄像机上进行全局几何捆绑调整(Bundle Adjustment)来解决这个问题。但以来局部配准，而且容易陷入次优解，而且输出的点云不利于下游任务。

nerf等重建方法对相机位姿要求严苛，最简单的想法是通过back-propagation对相机位姿也同时优化，但是在实践中发现这对初始化很敏感，而且容易收敛到次优解，降低重建质量。注意，positional encoding益于重建，但同时导致次优解。

Contribution

建立了经典图像对齐到联合配准和用神经辐射场重建的理论联系
表明positional encoding对配准的影响，提出coarse-to-fine配准策略
BARF可以从不完美相机位姿中重建场景三维表示，使得新视角合成和视频序列定位能从位未知视角中获得

Method

Planar Image Alignment (2D)

2D图像对齐可以归纳成一个问题就是学习一个变换使得photometric error最小

就是warp function从2维映射到2维，由p维向量作为权重参数化，由于是个非线性问题，可以用梯度下降法，其中

其中

是最陡下降图像，A是基于不同算法选择的通用变换。
比如用高斯牛顿法时

如果用随机梯度下降法A就是一个标量学习率

而J可以表示为

其中

是warp雅可比矩阵限制对预定义warp的像素位移。

基于梯度方法的配准核心是图像梯度建模了一个局部的逐像素的表面和空间位移之间的线性关系，经常由有限差分来估计。显然的是如果每像素的预测之间有关系（即信号是光滑的），那么

的估计会更有效。

因此，通过在配准的早期阶段模糊图像，有效地扩大吸引区域和smoothening the alignment landscape，实践了从粗到细的策略。

Images as neural networks

另一种方式是在解决p的时候用神经网络学一个图像的表示，神经网络参数是

或者对每个图分别学一个p，回顾一下，p是warp function的P维向量参数

神经网络使得梯度不再是数值估计而是网络参数对位置的偏导，不再依赖启发式的对图像的模糊，这使得能泛化到三维情况。

Neural Radiance Fields (3D)

为了保持一致性，三维情况下x表示三维坐标，W表示nerf中的网络。NeRF实际上是用MLP f把三维坐标映射到四维输出，记为

，是网络参数。实际上还有d，这里简化处理。

设一个像素点的坐标是u，那么齐次坐标是，根据多视图几何理论，在深度的坐标就是

，那么渲染公式可以写为

由于是N个采样点，最终得到的是一个三通道颜色，可以直接改写为

一个相机的参数

，而相机坐标系下的x也可以通过W映射变到世界坐标系下，那么颜色可以写成关于像素坐标u和相机位姿p的函数

这个网络参数

就是学习的神经辐射场的三维表示

如果有M张图，那么目标就是优化NeRF学习三维表示，并且优化相机位姿

同样地可以推导出J的表达式用于更新p

On Positional Encoding and Registration

位置编码就是把信号映射到高频

但是可以看到雅克比矩阵会有一个离谱的增益

，这对预测来说是很不好的，适合重建中学习高频信号但是不适合配准中的学习，图像配准更希望平滑的信号。

Bundle-Adjusting Neural Radiance Fields

处理上述问题的方法是加一个mask，作为一个低通滤波器，第k频率的位置编码就变成了

是一个和优化进程正相关的[0,L]之间的可控参数，那么雅克比矩阵就变成了

所以最开始raw input中

是0，高频信号的雅可比矩阵系数都是0，慢慢的到最后

变成L，高频信号就和原始NeRF一样了。

这使得最开始从平滑信号学习图像配准，到后边学习高保真场景表示。

Experiment

Planar Image Alignment (2D)

Center crop and warps
以中间的crop为中心，剩下几个随机warp

Result

NeRF (3D): Synthetic Objects

用了100张由原始NeRF渲染出来的图，有准确的相机位姿，然后加了正态扰动使相机位姿发生偏移

Evaluation criteria

图像配准的pose error和新视角合成的质量

NeRF (3D): Real-World Scenes

ground-truth是sfm来的，量化指标表示了该方法和sfm的吻合度有多高

发布于 2022-06-26 11:56

少林达摩祖师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文随记｜BARF : Bundle-Adjusting Neural Radiance Fields

NeRF需要准确相机标定，本文想在不完美相机标定或完全未知标定情况下重建，学习三维表示并配准相机帧，bundle-adjustment是sfm中的一种方法。nerf等重建方法对相机位姿要求严苛，最简单的想法是通过back-propagation对相机位姿也同时优化，但是在实践中发现这对初始化很敏感，而且容易收敛到次优解，降低重建质量。显然的是如果每像素的预测之间有关系（即信号是光滑的），那么。，这对预测来说是很不好的，适合重建中学习高频信号但是不适合配准中的学习，图像配准更希望平滑的信号。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。