STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in Motion with Neural Rendering

ShawLin0731

已于 2024-08-03 04:38:51 修改

阅读量920

点赞数 35

文章标签：论文阅读

于 2024-08-02 20:25:30 首次发布

本文链接：https://blog.csdn.net/qq_52626586/article/details/140865200

版权

论文原文地址：[2101.01602] STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in Motion with Neural Rendering (arxiv.org)

1.作者提出的问题

先前的基于神经隐式网络对动态物体的效果不好，一旦场景中的任何对象发生移动，这些方法就会失去所有预测能力。

2.先前的解决方法

通过给每一帧分配一个NeRF模型，或通过将输入坐标拓展为包括时间的4维空间。但是前一种方法的时间复杂度和空间复杂度都非常高，并且两种方法都不能用于渲染新视角下的图片，因为它们没有对场景的对象级理解（就是没办法区分到底是那个东西在运动）。

之所以作者不用“将输入坐标拓展为包括时间的4维空间”这种时变系统的方法，是因为，作者认为这样的结构将运动物体和静止场景混在一起，没办法生成运动物体没到过的场景。

3.作者认为STaR系统可以部分解决上述问题：

最左边一列是k个相同分辨的相机在不同位置、不同朝向下拍摄的k组连续帧。中间一列表示的是，通过STaR系统后，运动物体和静态场景被分离（运动物体被表示进dynamic MLP，静态物体被表示进static MLP，并且会优化不同帧下dynamic MLP和static MLP的变换矩阵）。最后一列是在新视角下，合成运动物体未到达过的位姿的画面。

STaR采用的是将运动物体和静态场景分别使用不同的MLP来表示，在这两种表示之间还存在将两种表示对齐的变换矩阵，对齐的原理是：

从上图可以看出，作者的引入“对齐变换矩阵”的原因就是，如果分别用不同的MLP表示运动物体和静止场景，那么二者的坐标系是不同的，如果要像NeRF那样在射线上采样点来渲染像素，就需要在坐标输入dynamic MLP之前，将static MLP的射线转换到dynamic MLP的坐标系下。

用数学来表示的话就是：

在获得dynamic MLP的输出 $\sigma _{i}^{S}$ $c_{i}^{S}$ 和static MLP的输出 $\sigma _{i}^{D}$ $c_{i}^{D}$ 后，可以利用与NeRF相似的体渲染公式获得像素值，只是进行了两个输出值的结合而已：

联合优化的损失函数是：

其中 $\widehat{C_{c}}(r)$ 是射线r上粗采样渲染得到的像素值， $\widehat{C_{f}}(r)$ 是射线r上精采样渲染得到的像素值， $C(r)$ 是拍摄到的帧对应r的像素值。 $\beta$ 是超参数。这个损失函数的后部分是正则项，公式如下（ $H(\alpha _{i}^{S})$ 和 $H(\alpha _{i}^{D})$ 是一样的）：

其中，。引入 $H(\alpha _{i}^{S})$ 和 $H(\alpha _{i}^{D})$ 的原因是鼓励透明度接近0或1（但个人感觉这对对玻璃、纱窗这种半透明的场景有影响）,减少模糊性，因为按道理，空间中的一个点不是透明的就是不透明的嘛。引入 $H(\alpha _{i}^{S},\alpha _{i}^{D})$ 是为了防止静态和动态体积在同一点上都具有大密度，因为按道理，将静态环境和运动物体分离后，两个MLP模型在同一位置上表达的透明度应该是，相对的两个值，即动为1则静为0，只要运动物体占据了空间中某位置，则静态场景就必不可能占据此位置。

关于怎么计算位姿损失，参考下图：

其中L就是之前提到过的“联合优化的损失函数”，等式右边的后一项在论文的附录中给出了推导过程，这里就不细说了：

作者还提出了用第一帧来初始化static MLP可以减轻运动物体和静态环境之间几何、外观和位姿的纠缠。初始化是这样做的，在第一帧上采样一些像素，用这些像素和相机光心构成射线，在射线上采样，将采好的样本分别送入static MLP和dynamic MLP中（注意，作者对第一帧采取的变换矩阵会初始化为单位矩阵，第一帧的变换矩阵是不进行优化的），运用NeRF的一套流程可以得到各条像素对应的像素值，求得上述的“联合优化的损失函数”，反向传播更新两个MLP的参数，直到所有采样得到的像素的平均 MSE低于一个设定的超参数阈值，就完成初始化了。但是这里对static MLP的初始化，是包含了运动物体的信息的。

还有一些细节上的内容，比如训练策略是什么，评估指标或对象是什么，请具体阅读原文，这里就不过多赘述。

4.作者提出的STaR系统的特点

①可以有多个观察角度

②可以追踪和重建刚性移动的动态场景（也就是这样一个场景，场景中只有一个运动的物体，而且这种运动必须是刚性运动，即物体不变形）

③可以实现自监督，即只需要用输入的rgb图片来监督训练，不需要额外的Ground Turth，④假设场景仅包含一个移动对象，并且运动是完全刚性的。

5.STaR系统能够实现的效果

通过多视点（在不同的角度摆多个相机）的视频输入，联合优化两个神经辐射场的参数和一组在每帧对齐两个场的刚性姿势，最后实现新角度、新位置的图像合成（就是训练完成后，可以合成没训练过的视点下，运动物体没去过的位置的画面）

ShawLin0731

关注

35
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in Motion with Neural Rendering

通过多视点（在不同的角度摆多个相机）的视频输入，联合优化两个神经辐射场的参数和一组在每帧对齐两个场的刚性姿势，最后实现新角度、新位置的图像合成（就是训练完成后，可以合成没训练过的视点下，运动物体没去过的位置的画面）
复制链接

扫一扫