代码:https://github.com/nie-lang/DeepRectangling
链接:https://arxiv.org/abs/2203.03831
概览
目前图像拼接的一个问题是拼接后会产生不规则的边界,如下图1 b所示。目前解决这类问题主要是通过图像矩形化方法,并且通常是分为两个阶段,第一阶段搜索初始网格,第二阶段优化网格来完成网格变形,然后 warp 输入的拼接图像来生成矩形图像,不过这类方案只适合处理具有丰富线性结构的图像,对于带有非线性结构的人物和风景会有明显失真的情况。
本文通过提出第一个图像矩形的深度学习解决方案来解决这些问题。具体来说,我们预先定义了一个刚性目标网格,并且只估计一个初始网格以形成网格变形,从而有助于一个紧凑的单阶段解决方案。使用具有残差渐进回归策略的全卷积网络预测初始网格。为了获得具有高内容保真度的结果,提出了一个综合目标函数,以同时鼓励边界矩形、网格形状保持和内容感知自然。此外,我们构建了第一个图像拼接矩形数据集,在不规则边界和场景中具有很大的多样性。实验证明了我们在数量和质量上都优于传统方法。
主旨
作者想解决什么问题
由于图像拼接的时候,目前大多数方法主要重点优化全局或者局部 warp 来对其不同图像的重叠区域,而非重叠区域会受到不规则边界的影响。
作者通过什么理论/模型来解决这个问题
图像矩形化
作者给出的答案是什么?
提出一种一阶段的图像矩形化方法,具体来说就是设计了一个简单但有效的全卷积网络,以使用残差渐进回归策略从拼接图像中估计内容感知初始网格,然后使用预定义的刚性目标网格进行高效并行计算。此外,提出了一个由边界项、网格项和内容项组成的综合目标函数,以同时鼓励边界矩形、网格形状保持和内容感知自然。
作者为什么研究这个课题?
-
不规则的边界会影响观感;
-
目前采用的图像矩形化仅适合具有丰富线性结构的图像,对带非线性结构的人物和风景会有明显失真情况;
目前这个课题的研究进行到哪一个阶段?
对于不规则边界的处理,目前有这几种方法:
-
通过裁剪方法来处理,但是裁剪会降低拼接图像的 FOV,这和图像拼接的目的矛盾;
-
采用图像补全来将缺失区域合成为矩形图像,但目前还没有相关工作为不规则边界设计掩码,并且 SOTA 的图像补全工作对图像拼接的处理效果也不让人满意;并且可能添加一些看起来和谐但是和现实不同的内容,这在自动驾驶等高安全性应用中是不可靠的;
-
而图像矩形化方法主要是通过网格变形来将拼接图像 warp 为矩形,但它们只能保留具有线性结构,比如建筑物、盒子、柱子等,对非线性结构,比如肖像、风景,都会产生失真;另外就是它们采用两阶段,并不好实现并行加速;
研究方法
提出了第一阶段学习基线,即我们预定义了一个刚性目标网格并仅预测一个初始网格。具体来说,我们设计了一个简单但有效的全卷积网络,以使用残差渐进回归策略从拼接图像中估计内容感知初始网格。此外,提出了一个由边界项、网格项和内容项组成的综合目标函数,以同时鼓励边界矩形、网格形状保持和内容感知自然。与现有方法相比,由于我们的内容约束中的有效语义感知,我们的内容保存能力更通用(不限于线性结构)和更健壮。
Traditional Baseline
对于一个经典的传统方法,一般是分为两阶段的:局部阶段和全局阶段(如下图2 a 所示).
Stage 1:局部阶段。首先,在拼接图像中插入丰富的接缝,使用接缝雕刻算法 [1] 得到初步的矩形图像。然后,在初始矩形图像上放置一个规则网格并移除所有接缝以获得具有不规则边界的拼接图像的初始网格。