论文笔记：Learning From Documents in the Wild to Improve Document Unwarping

HenrySmale

已于 2023-05-02 10:25:11 修改

阅读量1.1k

点赞数 1

分类专栏： OCR文字识别图像处理文章标签：学习深度学习人工智能

于 2022-12-02 17:43:40 首次发布

本文链接：https://blog.csdn.net/search_129_hr/article/details/128151838

版权

本文提出了一种名为PaperEdge的新方法，通过结合真实世界和合成数据来提升文档去扭曲的性能。PaperEdge利用真实文档边缘进行弱监督学习，解决了现有深度学习模型在处理真实世界图像时的局限性。此外，文章还介绍了对齐失真(AD)这一更可靠的评价指标，以评估文档去扭曲效果，并贡献了一个包含5000张真实文档图像的DIW数据集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 广告

论文2022年发表在SIGGRAPH顶会上。
预训练出来的模型有139M。
对文档的去扭曲变形效果在我们调研的深度学习模型里面算是最好的。
在这里插入图片描述

2 摘要

文档图像去扭曲是文档数字化和分析的重要内容。最先进的方法依靠纯合成数据来训练深度网络进行去扭曲。因此，经过训练的网络在测试真实世界的图像时具有泛化的局限性，经常产生不令人满意的结果。在这项工作中，我们建议通过在训练中加入真实世界的图像来提高文档的去扭曲性能。我们收集的野外文档(DIW)数据集包含5000个捕获的文档图像，在内容、形状和捕获环境方面有很大的差异。我们对所有DIW图像的边界进行注释，并使用它们进行弱监督学习。我们提出了一种新的网络架构，PaperEdge，用来训练合成和真实文档图像的混合。此外，我们识别和分析了用于文档去扭曲的常用评估指标，如MS-SSIM和局部失真(LD)的缺陷，并提出了一个更健壮和可靠的误差指标，称为对齐失真(AD)。结合合成和真实文档图像进行训练，通过综合定量评估和消融研究，我们在流行基准上展示了最先进的性能。

3 引言

与传统的纸质文档相比，数字文档更容易归档、编辑、签名和共享。如今，为了高效的工作流程，越来越多的物理文档被数字化。在2019冠状病毒病大流行期间，由于身体接触受到限制，数字文件对企业也发挥了至关重要的作用。无处不在的智能手机配备了高质量的相机，这使得为文件拍照成为数字化的标准方式。然而，由于纸张几何形状和拍摄条件的不控制，这些照片中的文件往往会失真。这些扭曲阻碍了从这些文档中提取信息，降低了可读性，并破坏了下游自动文档分析管道，如布局提取和光学字符识别(OCR)，这些管道是为只处理文档扫描而构建的。

提出了模型驱动和数据驱动两种方法来解决文档修正问题。模型驱动方法利用显式几何模型来拟合变形的文档表面。它们通常涉及缓慢的优化步骤，以获得未扭曲的结果，这不适用于实时应用。最近，数据驱动的方法越来越受欢迎。这些方法训练一个无扭曲神经网络映射一个任意的文档图像到一个变形场，该变形场将变形的输入扭曲成一个矫正的，类似扫描的结果。这样的网络可以实现实时性能。

在数据驱动的环境中，训练数据在构建可重构的无扭曲网络方面发挥着核心作用。理想情况下，人们会希望为监督学习收集足够的现实世界训练数据:捕获的扭曲文档图像和基本真实变形(通常由一些图像扭曲函数表示)。然而，由于野外大规模精确三维重建和密集配准的困难，这类数据很难获得。以前的工作[Das et al. 2019;Ma等人。2018]利用真实扭曲场对合成文档图像进行训练。现有的数据合成方案可以形成一个具有已知扭曲场的平面文档。然后训练一个网络来从变形的图像中还原扭曲场，随后用于将图像“反扭曲”为平面文档。然而，由于几何和材料建模的复杂性，合成超逼真的弯曲、折痕和皱褶的文档纸是非常具有挑战性的。来自最先进的合成文档数据集的图像[Das et al. 2019]与真实世界的图像明显不同。事实上，我们还在补充材料中证明了合成数据集中存在数据冗余。更具体地说，在使用32,000个合成图像(整个数据集的32%)进行训练后，来自额外合成训练数据的性能改进变得微不足道。

我们建议通过引入PaperEdge来改进文档的去扭曲，这是第一个可以用真实文档图像训练的去扭曲模型。在之前的监督学习方法中融入真实图像并非易事[Li等人，2019;Markovitz et al. 2020]，因为缺乏真实变形，这是很难获得现实世界的文档。PaperEdge支持从合成和真实世界的训练图像中学习:对于合成数据，我们使用真实变形以有监督的方式进行训练。对于没有真实变形的图像，我们利用文档边缘[Gumerov et al. 2004;Tsoi和Brown 2007] 作为弱监督。文档边缘反映全局矩形形状变形;因此，可以作为训练信号。它们也可以直接使用现成的图像分割工具进行注释[Rother et al. 2004]。为了促进提出的训练方案，我们收集了野生文档(DIW)数据集，其中包含5000张文档照片及其边缘注释。

此外，我们还引入了一种基于纹理的扭曲模型来进一步提高结果。文档图像纹理为去扭曲提供了有价值的线索，因为文档内容通常是结构化的。由于边缘是有效的全局图像去扭曲，纹理是有效的恢复局部失真。我们提出了一种自我监督学习策略[Gidaris等人，2018;Zhang等人。2019]训练纹理感知组件。在实际操作中，我们用随机产生的变形扰动对每个训练样本进行增强，形成一个训练图像对。之后，我们使用这些对以连体方式训练网络[Koch et al. 2015]。
我们还证明了流行的定量评价标准，如MS-SSIM和局部失真(LD)并不是理想的评价文档图像的平直。我们证明(1)MS-SSIM对感知上可忽略的扰动非常敏感，(2)LD计算在无纹理区域上占了大量不重要的误差。为了解决这个问题，我们引入了对齐失真(Aligned Distortion, AD)，这是一种用于评估文档去扭曲性能的更健壮的量化度量方法。
我们总结了以下研究成果:(1)提出了一种新的学习文档去扭曲的网络体系结构。该方法是第一种可以同时训练合成文档图像和相机捕获的随机文档图像的方法;(2)提出了一种鲁棒的文档解曲评价指标——对齐失真(Aligned Distortion, AD);(3)贡献了一个包含5000张野外文档图像及其边缘注释的文档数据集;(4)在所有评价标准下，我们在基准上实现了最先进的性能[Ma et al. 2018]。

4 相关工作

文献对文档去扭曲变形进行了广泛的研究。我们大致将之前的工作分为模型驱动方法和数据驱动方法。

4.1 模型驱动方法

模型驱动方法通常包括两个步骤:

(1) 估计文件表面变形；
(2) 压平变形表面。

表面变形估计。[孟等人，2014]使用激光束来估计一个可展开的表面。[Courteille等人，2007]将Shape from Shading [Wada等人，1997]应用到文档上。[Ulges et al. 2004]和[You et al. 2017]都使用了多幅图像来重建3D形状。Shape from Template也可以用于估计表面形状，如[Bartoli和Collins 2013;Chhatkuli等人，2014;Khan等人，2014]。对于文档图像，有几种方法[Ezaki et al. 2005;基尔等，2017;梁等，2008;刘等，2015;Lu和Tan 2006;孟等，2018;Ulges et al. 2004]已经提出从文档组件(如文本行、块和图形等)中估计形状。

表面平整。[Kim et al. 2015]和[Kil et al. 2017]将曲面建模为广义圆柱曲面(GCS)，并证明了变形在参数空间中是可逆的。[Liang et al. 2008]和[孟et al. 2015]都用切平面上有限数量的平面条来近似曲面。[Tian and Narasimhan 2011]，和[孟等人，2018]在输入图像上的投影网格和想象的扁平图像之间建立稀疏对应关系，以恢复纹理。[You et al. 2017]使用保形映射将网格压平。

4.2 数据驱动方法

近年来，深度神经网络被广泛应用于文档的去扭曲变形学习。[Shafait和Breuel 2007]发布了102张二值化图像的数据集。[Pumarola等人，2018]利用CNN对变形曲面的规则网格上的顶点坐标进行估计。[Jiménez et al. 2018]在CNN中嵌入了SfT框架。[Das et al. 2017]训练CNN检测折叠边缘。[Ma et al. 2018]提出了一种基于随机扰动的2D文档图像训练的端到端去扭曲网络。[Li等人，2019]用本地/全局双分支网络扩展了这一想法。[Liu等人，2020]利用门控网络块和对抗性损失来改善结果。[Xie et al. 2020]估计了变形偏移量而不是绝对变形场，并加入了局部光滑约束。[Das et al. 2019]提出了DewarpNet来显式建模变形的3D形状，并引入了带有约100K渲染图像的Doc3D数据集。[Markovitz等人，2020]遵循了类似的数据合成管道，并通过文本块角度监督进一步增强了DewarpNet。[Das等人，2021]提出了一种更好的局部去扭曲的patch-wise方法。最近，[Feng等人，2021]引入了Transformers[Vaswani等人。2017]作为更强大的支柱。

最先进的合成数据集，如Doc3D，为监督训练提供真实的扭曲变形。然而，合成数据与真实数据之间的视觉差异是非常显著的。与之前的工作不同，我们的框架可以利用真实数据进行训练，并使用廉价的纸质边缘注释，显著提高了网络的泛化能力。因此，通过利用合成和真实图像，我们在未扭曲的任意文档图像上实现了最先进的性能。我们注意到一项同时进行的研究[Xue等人，2022年]，该研究也利用真实的图像来改善去扭曲。它需要文件扫描作为一种手段，但扫描仪并不总是可用。而我们建议使用更容易理解的文档边界注释。

5 建议的方法

在这里插入图片描述
PaperEdge包含两个子网络，它们分两步对输入文档图像进行去扭曲(图2): 第一个子网络“Enet”使用文档边缘信息对输入进行去扭曲。Enet的输出是一个粗尺度的“全局”变形的扭曲场，它将输入文档图像扭曲为具有所需边界属性的形状，即矩形。第二个子网络“Tnet”依靠文档纹理输出一个精细的“局部”扭曲场。它校正了之前输出的局部变形，理顺了文本行，并校正了内容形状。
$x_{t}=\phi\left(\phi\left(x, d_{E}\right), d_{T}\right) \tag1$
此处：

$x$ ：扭曲文档；
$\phi\left(a_{1}, a_{2}\right)$ ：一个基于变形场 $a_{2}$ 对 $a_{1}$ 进行变形的二维去扭曲函数；
$d_{E}$ ：Enet输出的基于边缘的变形场；
$d_{T}$ ：Tnet输出的基于纹理的变形场。

变形场定义了向后映射[Chen et al. 1999]，它决定了输入图像中要采样并映射到目标的位置。
在本节中，我们将介绍Enet和Tnet，包括它们的网络架构和训练方法。使用合成数据和真实数据的训练方法不同，因为它们提供的训练信号不同。我们将分别描述它们，并说明我们的网络设计允许使用这两种数据类型进行混合训练。

5.1 Enet: Edge-based Unwarping

Enet是一个全卷积编码器-解码器。编码器有6个剩余块[He et al. 2016]，每个块对输入特征图进行2倍的下采样。译码器有4个残块，每个残块对输入特征图进行2倍的上采样。在我们所有的实验中，我们使用 $256 \times 256 \times 5$ (输入图像 $x$ +坐标的RGB [Liu et al. 2018])作为Enet输入，瓶颈特征图为 $4 \times 4 \times 512$ 。解码器输出的变形场(向后映射)为 $64 \times 64 \times 2$ 。
在这里插入图片描述
监督训练合成图像。给定合成的变形文档图像 $x$ 及其真实变形场 $d^*$ ，我们以完全监督的方式训练Enet。特别地，设 $d^{*} \in R^{N×N×2}$ ，其中 $N$ 为空间分辨率，则 $d^*$ 的边界元素: $\{d^∗(i, 1), d^∗(i, N), d^∗(1, j), d^∗(N , j) | i, j \in [1, N]\}$ 在输入图像中指出文档边界的坐标。 $d_E$ 的大小与 $d^*$ 相同。我们训练Enet来匹配 $d_E$ 和 $d^*$ 的边界元素，损失如下:
$L_{S E}=\left|B\left(d_{E}\right)-B\left(d^{*}\right)\right|_{1} \tag2$
其中