论文笔记：IndoorNet(2020)_atlantanet: inferring the 3d indoor layout from a -CSDN博客

本文链接：https://blog.csdn.net/qq_29598161/article/details/109753213

IndoorNet: Generating Indoor Layouts from a Single Panorama Image(2020 Advanced Computing Technologies and Applications)

pdf下载
本文以全景图和曼哈顿线共同作为输入，构建一个端到端的模型。输出2个预测，分别是墙角和上下墙线。

在这里插入图片描述

Related Work

从图片恢复布局有以下区分：

图片数量
透视或全景图
房间形状(4个墙角的矩形、多余4个墙角的复杂形状)
几何学的使用

最近开始使用FCNN取代传统使用几何方法。
RoomNet首次实现透视图恢复房间结构功能。
PanoContext输入是全景图，裁剪为多个透视图然后预测多个布局？
LayoutNet结合了深度学习和几何知识来预测房间布局。
本文方法更快、尺寸更小。单一的encoder– decoder结构同时预测2个map。

在这里插入图片描述
和PanoContext、LayoutNet对比，实际上没有很大改进和前2篇(DuLa-Ne、HorizonNet)相差很多，且只能预测4个墙角布局。下面只有对一些基础内容做笔记。

Approach

在这里插入图片描述
输入：全景图+Manhattan线(实际上还是一张图)
输出：墙角、边界
优化恢复3D结构

Calculating the Manhattan Lines：
首先将全景图像划分为多个重叠的透视图像。接下来，选择长线并将线段弯曲回全景图。然后利用霍夫变换计算所有可能的消失方向，最后每条线段通过投票选择三个相互垂直的消失方向。这种线的表示及其三维方向是一个有用的特性。

Network Architecture:

在这里插入图片描述
常规的FCN结构：

FCN Encoder： 7层卷积， $\times 3$ 卷积核，最大池化(下采样因子2)，第一次卷积32通道，最后一层2048通道。
由于论文没给出每步，个人推测，后面可以看LayoutNet结构，一个是一样
input： $\times 512 \times 1024$
cov1： $32 \times 256 \times 512$
cov2： $64 \times 128 \times 256$
…
cov7： $2048 \times 4 \times 8$

FCN Decoder： 借鉴U-net结构，使用了跳跃连接使得信息可以传递到底层。和LayoutNet不同的是，一个Decoder就输出了2个map，所以参数就更。这就是本文创新之处。输出3通道边界概率图 $P_b$ 和1通道墙角概率图 $P_c$ 。

Loss Function：
$\begin{aligned} L\left(P_{b}, P_{c}\right)=-& \sum_{\bar{y}_{b} \in P_{b}}\left[y_{b} \cdot \log \sigma\left(\overline{y_{b}}\right)+\left(1-y_{b}\right) \cdot \log \left(1-\sigma\left(\overline{y_{b}}\right)\right)\right] \\ &-\sum_{\overline{y_{c}} \in P_{c}}\left[y_{c} \cdot \log \sigma\left(\overline{y_{c}}\right)+\left(1-y_{c}\right) \cdot \log \left(1-\sigma\left(\overline{y_{c}}\right)\right)\right] \end{aligned}$
使用交叉熵，取代L2。

Gradient Descent Optimizer

在LayoutNet中有使用3D layout regressor得到3D参数 $d=\left\{s_{w}, s_{l}, s_{h}, t_{x}, t_{z}, r_{\theta}\right\}$ 。然后采用Floor-Plan Reconstruction from Panoramic Images里的方法来求布局，然后迭代墙求最优布局。本文则是用了更简单方法Gradient Descent Optimizer，得到参数d后，假设形状是矩形的房间，所以沿着立方体的边界采样，把这些采样点重新投影会全景图，再计算和真实边界的L2距离。该方法一定程度提升了准确度。