从iNeRF开始学习Pose Refinement

Rick0xFFFFFF

已于 2023-03-29 17:12:35 修改

阅读量568

点赞数 2

文章标签：深度学习人工智能机器学习计算机视觉

于 2023-03-29 16:40:41 首次发布

本文链接：https://blog.csdn.net/i_head_no_back/article/details/129831250

版权

从iNeRF开始学习Pose Refinement

一、前言

传统的SLAM已经能够解决pose estimation的问题，但是由于累积漂移、feature match造成误差等各个方面因素的影响，导致pose estimation存在一定的误差，这种误差在大范围场景的三维重建下会产生非常不良的影响, 比如多帧点云融合, 街景3D重建。此时， pose refinement就显得非常重要， NeRF based pose refinement就是一个效果惊艳的解决方案，因为不像传统的SLAM需要回环检测的方式进行pose refinement, 它仅仅需要结合图像（后面也可以考虑融合LiDAR）对现有pose 进行refinement。

二、iNeRF

iNeRF研究什么

如何构建sample rays的方式来获取梯度信息，从而通过梯度下降实现pose refinement。
如何设置batch size of rays, 不同的batch size会对pose refinement 产生怎样的影响

iNeRF惊艳的地方

iNeRF可以对category-level的instance进行位姿估计，即使这些instance未在训练集出现过,

iNeRF Pipeline

Alt
从pipeline可知，pose refinement的关键是如何构建loss再backpropagation .

作者给出的方式如下：
$\hat{T}=\argmin_{T \in SE(3)}\mathcal{L}(T|I,\Theta)$
其中 $\mathcal{L}$ 就是经典NeRF中的photometric loss function, 只是直接将loss回传到了 $T$ ，而非更新模型参数。
说起来简单，实现上来说还有以下三个需要注意的点：

如何在李群 $SE (3)$ 上实现梯度下降，以保证 $\hat{T}$ 都在 $SE (3)$ 流形的定义上? ( Gradient-based $\mathbf{SE(3)}$ Optimization)
如何构建采样策略？(Sampling Rays)
如何利用iNeRF的预测位姿来提升NeRF的渲染效果?(Self -Supervising NeRF with iNeRF)

A. Gradient-based $\mathbf{SE(3)}$ Optimization
作者首先抛出了一个定义：screw-axis $\mathcal{S}$ ，该定义来源于Modern robotics v2 一书中的102 页, Defination 3.24, 定义如下。
$\mathcal{S}=[\omega,v]^T \in \mathcal{R}^6$
where either (i) $\Vert \omega \Vert=1$ or (ii) $\omega$ =0 and $\Vert v \Vert=1$ .
注意，从定义可知，这个玩意儿如果变换（ $R^6$ 反对称变换）成这个形式，可以发现是属于李代数的.
$[\mathcal{S}]=\lbrack \begin{aligned} [\omega&] \space &v \\0& \space &0 \end{aligned} \rbrack \in se(3)$
其中 $[]$ 是反对称符号，具体请看*<<SLAM十四讲>>*第四讲，李群李代数。

这个定义存在一个好处， $[\mathcal{S}]$ 乘上一个系数 $\theta$ 还是李代数，而巧妙的是 $\mathcal{S}\theta \in R^6$ 是一个六维的实数，这就方便了。也就是说直接用梯度下降法求解 $\mathcal{S}\theta \in R^6$ 即可。公式如下，
$\hat{\mathcal{S}\theta}=\argmin_{S\theta \in R^6}\mathcal{L}(e^{[S]\theta}T_{0}|I,\Theta)$
即在 $T_0$ 上加一个小的左扰动作为修正，非常直观就能理解 $[S]\theta$ :
$[\mathcal{S}]\theta=\lbrack \begin{aligned} [\omega&]\theta \space &v\theta \\0& \space &0 \end{aligned} \rbrack \in se(3), v\theta=p$
$v\theta$ 就是李代数中的position, $\theta$ 就是 $\mathcal{S}\theta \in R^6$ 前三维的模。现在问题在于如何用 $[\omega,v,\theta]$ 三个向量表示 $e^{[\mathcal{S}\theta]}$ ,直接泰勒展开
$e^{[\mathcal{S}]\theta}=I+[S]\theta+[S]^2\frac{ \theta^2}{2!}+...=\lbrack \begin{aligned} e^{[\omega]\theta}& \space &G(\theta)v \\0& \space &0 \end{aligned} \rbrack \\ G(\theta)=I\theta+[w]\frac{ \theta^2}{2}+[\omega]^2\frac{\theta^3}{3!}+...$
根据反对称矩阵的属性 $[\omega]^3=-[\omega]$ ，再结合欧拉公式，可以得到：
$G(\theta)=I\theta+(1-\cos\theta)[\omega]+(\theta-sin\theta)[\omega]^2$
芜湖，这就和论文一致了。

B. Sampling Rays
要是还是用NeRF的random sampling 会导致计算量巨大，退而求其次次是interest point sampling, 退而求其次就是作者提的interest region sampling, 每次梯度下降只采2048个rays, 每个rays 只在interest point周围被作者morphological dilation后的interest region里面采（老经典CV了）

C. Self -Supervising NeRF with iNeRF
用iNeRF可以把一些未知pose求解出，又把这些pose加入到NeRF training set中，让NeRF Model更强大。

参考文献：
Yen-Chen, Lin, et al. “inerf: Inverting neural radiance fields for pose estimation.” 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2021.

Lynch, Kevin M., and Frank C. Park. Modern robotics. Cambridge University Press, 2017.

Rick0xFFFFFF

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
从iNeRF开始学习Pose Refinement

传统的SLAM已经能够解决pose estimation的问题，但是由于累积漂移、feature match造成误差等各个方面因素的影响，导致pose estimation存在一定的误差，这种误差在大范围场景的三维重建下会产生非常不良的影响, 比如多帧点云融合, 街景3D重建。
复制链接

扫一扫