论文笔记：AtlantaNet(ECCV 2020)

最新推荐文章于 2024-08-16 08:44:45 发布

snoopy_21

最新推荐文章于 2024-08-16 08:44:45 发布

阅读量489

点赞数

分类专栏：布局预测笔记计算机视觉

本文链接：https://blog.csdn.net/qq_29598161/article/details/111601975

版权

笔记同时被 3 个专栏收录

68 篇文章 7 订阅

订阅专栏

计算机视觉

35 篇文章 9 订阅

订阅专栏

布局预测

2 篇文章 0 订阅

订阅专栏

本文方法基于Atlanta假设，其只要求墙垂直于地面。布局预测和房间高度估计都是基于天花板和地板的2个透视图。预测布局使用RNN，并且利用一个基于专家知识的自定义训练策略。本文重点是支持复杂布局，墙角很多甚至是曲面墙角。

在这里插入图片描述

Introduction

以往方法：LayoutNet、DulaNet、HorizonNet，需要Manhattan假设进行费时的预处理和后处理。Atlanta假设不需要墙与墙互相垂直。布局预测和房间高度估计都是基于天花板和地板的2个透视图。

预测布局使用RNN，并且利用一个基于专家知识的自定义训练策略。该网络分别输入对天花板和地板透视图，对应输出各自的分割mask，区分内部和外部空间。天花板的输出抽取墙角得到多边形近似房间结构，地板的输出通过几何关系(上下视图比例)可以算出房间高度

贡献：

基于Atlanta假设，全都在透视图上预测，便于使用透视图的方法：直接地2D卷积、数据增强、RNN
在天花板透视图和地板透视图输出分割mask，得到轮廓和角点。其中天花板透视图估计结构，2个轮廓分析几何关系估计高度。比以前从稀疏的角落位置推断布局的方法更稳定，也更适合于复杂结构的建模，如曲面墙。不需要后处理。
不需要预处理和后处理，只需要输入图片大致墙是垂直地面的。
们提出了一种训练策略，基于在同一网络实例中同时提供天花板和地板视图，与双连接分支架构或天花板和地板的单独训练相比，可以提高推理性能

Overview

现在的全景相机一部带有惯性测量单元(IMU)，可以得到当前相机的pitch和roll，应用到全景图上即可对齐进行矫正。当然也可以使用panocontext提供的预处理。
在这里插入图片描述

第一个模块首先进行Atlanta变换，得到天花板视图和地板视图，分辨率都为(1024 x 1024)。由于事先不知道上下视图的墙边界范围，所以fov先固定一个值，比如fov=120。尽可能大，但是又要保证边界不会有太严重的扭曲。

输入到网络后，上下视图各种输出对于的墙的轮廓。图a显示如何使用上下轮廓得到房间比值高度 $h_r$ 。其实就是简单的相似三角形原理，fov一样，当上下的边长(蓝红线)不一样时，即可计算 $h_r = h_c/h_r$ 。图b显示，由于遮挡，取轮廓的并集然后再算比例。

Approach

4.1 Data Encoding

等距平面图形到透视图形的关系(理解为等距投影图像到球面上，然后在 $z=h_{f}$ 截取，即 $z=h_{f}$ 作为透视图焦距)
$A_{h}\left(\theta, \gamma, h_{f}\right)=\left\{\begin{array}{l} x=h_{f} / \tan \gamma * \cos \theta \\ y=h_{f} / \tan \gamma * \sin \theta \\ z=h_{f} \end{array}\right.$

为了便于理解，回顾一下投影过程：
在这里插入图片描述
图片来自论文：基于本质矩阵鲁棒估计的球形全景匹配

上图中，球面到平面(等距投影)：
$\left\{\begin{array}{l} x=r(\alpha+\pi) \\ y=r\left(\frac{\pi}{2}-\beta\right) \\ r=\frac{W}{2 \pi}=\frac{H}{\pi} \end{array}\right.$

平面(等距投影)到球面：
$\left\{\begin{array}{l} X=r \cos \beta \cos \left(\frac{\pi}{2}-\alpha\right) \\ Y=r \cos \beta \sin \left(\frac{\pi}{2}-\alpha\right) \\ Z=r \sin \beta \end{array}\right.$

理解完上面，再结合本论文，其 $z=h_{f}$ ，即 $\sin \beta (\frac{h_f}{r \sin \beta})$ 。那么就有 $\cos \beta \cos \left(\frac{\pi}{2}-\alpha\right) (\frac{h_f}{r \sin \beta}),Y=r \cos \beta \sin \left(\frac{\pi}{2}-\alpha\right) (\frac{h_f}{r \sin \beta})$ ，然后就得到本论文的投影关系。所以 $h_{f}$ 是三维坐标系中z轴的值，其表示高度、焦距。在 $z=h_{f}$ 处截取平面，把球面上的点投影在 $z=h_{f}$ 平面上，即得透视图。

理一下论文算房间高度过程，房间高度由2个值决定 $h_e$ 和 $h_c$ ，

$h_e$ 是相机到地面的距离，通常已知真实值，或者假设为1。
那么需要求的就是 $h_c$ 。而 $h_c/h_e$ 可以通过计算上下视图的轮廓比例来求。而轮廓需要网络预测得到。所以对于网络输入，在不知道 $h_f$ 的情况下，先假设 $h_{f}=w / 2 * \tan (F O V / 2)$ 。 $w$ 是输入网络的宽，论文中 $\times w = 1024 \times 1024$ ，FOV=180。在应用最开始的公式进行投影，这样便得到输入网络的上下2个透视图。

Network Architecture

在这里插入图片描述
网络结构：
输入：上下透视图(3x1024x1024)

encoder：resnet，每经过一个block分辨率减半

最后4层经过不同卷积(4个卷积层称为convs，步长为2，最后一层为1)，每个卷积层后面接BN和ReLU激活，得到相同尺寸256x32x32。最终经过reshape得到256x1024，然后4个feature map连接得到1024x1024的sequential feature map。

输入：1024x1024
RNN是双向LSTM，细胞状态和输入上下都为512维度特征，所以LSTM输出为1024 x (512 + 512)

输入：1024 x (512 + 512)
decoder：上采样 + 6卷积层(和convs一样但步长为都为1)，每个卷积层接ReLU激活，最后一个卷积层接sigmod。

最终输出1x1024x1024的形状分割mask，再经过过Douglas算法提取轮廓。

为什么使用RNN?

We feed such a sequence to a RNN, that is exploited to capture the shape
of the object and thus make coherent predictions even in ambiguous cases such as occlusions and cluttered scenes.

布局的恢复：
2D房间布局由天花板mask抽取轮廓得到F2D，通过上下视图输出的mask抽取轮廓，计算比例得到 $h_r$ ，它是一个比例，即 $h_c/h_e$ ，当确定了 $h_e$ ，便可知道房间高度 $h =h_c + h_e$ 。最终的布局由F2D和 $h$ 恢复。