论文题目
Document Layout Analysis: A Comprehensive Survey 2019
前言
文档版面分析(DLA)是文档理解的预处理步骤,其负责检测和标注文档内的物理结构。DLA有很多重要的应用,例如文档检索、问本分类,文字识别等,其目的是通过识别文档同类块和确定他们之间的关系,以此来简化后续的分析和识别阶段。DLA包含几个阶段,根据文档的布局和最终分析的目标不同,DLA的方法也不同。在此方面,一个能够适应所有类型的文档布局或满足所有分析目标的通用DLA算法还未开发出来。DLA框架包括预处理、版面分析策略、后处理和性能评估阶段。
DLA有两个方面影响着其发展,一是布局的多样性,二是评估指标。
文档布局类型
文档布局的类型
类型大概分为以下6类
[外链图片(img-HQQCkWB7-1653407804301)(pic\image-20220510193639069.png)]
a是矩形,b是曼哈顿,c是非曼哈顿,d是多行曼哈顿,e是任意复杂,f是水平和对角重叠。
这六种是常见的文档布局,文档布局分析研究的是如何从文档中提取文本,同时保留其他的类型。
分析框架
[外链图片(img-3qMCDwBv-1653407804302)(pic\image-20220510195203438.png)]
整个框架包含:分析参数+布局分析+后处理+性能评估
- 分析参数是预先确定的测量,帮助DLA方法控制文件分析。它可以分为两种类型:基于模型驱动或数据驱动的参数。对模型驱动参数进行估计,以微调DLA模型,以满足其分析目标。例如,设置一个多层感知器(Multi-layer Perceptron, MLP)的节点数或层数或确定一些用于模型训练的初始权值。另一方面,使用基于给定数据集[19]的各种度量来计算基于数据驱动的参数。数据驱动参数的示例包括平均行间和字间距、字符的平均高度/宽度、线条大小等。
- 布局分析,布局分析策略有三种类型:自底向上、自顶向下和混合方法。自底向上策略通常根据给定的数据计算分析参数。它从小的文档元素(如像素或连接组件)开始布局分析。然后,它合并同质元素以创建更大的区域。它继续形成更大的均匀区域,直到达到预定义的停止条件。自顶向下策略从大型文档区域(如文档级)开始。然后,它根据一些同质性规则将大区域分割为较小的区域,如文本列。当不再划分层位或达到某些停止条件时,自顶向下分析停止。最后,两种策略(自底向上和自顶向下)的集成产生了所谓的混合策略。
- 后处理,后处理阶段是可选步骤,用于提升DLA算法最后得到的结果。
- 性能评估,DLA包含物理分析和逻辑分析,物理分析的主要目的是检测文档结构并识别其同类型区域的边界;逻辑分析主要负责标记检测得到的元素,例如图例,标题,段落,logo,签名等。评估是对真值和检测得到的进行对比,例如像素和区域级别的。DLA可能。DLA的ground truth和segmentation结果可以用XML文件。描述包括图像边界、布局结构、页面内容、几何扭曲/修正、二值化等
预处理
倾斜检测与矫正
文档图像倾斜可在文档图像级别和文档区域级别找到,写作的风格也可能会导致局部文本倾斜。两类倾斜需要进行检测和矫正后才能进行分析。倾斜检测高度依赖文档分割,也就是说,提取文档区域,输入文档图像需要标准格式,也就是0度倾斜,前人的方法可分为7类,投影法,霍夫变换,最近邻,互相关法,线拟合,频域法和梯度法。
文档图像二值化
普遍来讲,二值化过程通过阈值将给定的灰度图像转变为二值图,二值化将会帮助后续的多个分析任务,例如文本线检测,倾斜矫正,连通域估计等。二值化过程将会计算一个阈值,用于将像素分类为前景或背景,因此,我们可对其进行二进制方法分类,二值化科研应用于全局或局部级别,基于全局的方法对文档整体计算二值阈值。局部方法根据图像当前处理部分计算几个阈值。
文档版面分析
文档版面分析可分为自底向上策略和自顶向下策略,如下图所示。
[外链图片(img-GHAv1Ub0-1653407804302)(pic\image-20220515102143152.png)]
参数配置
静态参数适合分析受限制的文档布局,静态参数估计例如有文本块位置,常规区域之间的gap长度,每个区域的常规行数,文本元素的长度。另一方面,动态参数估计由文档图像直接计算,当要分析的文档是不均匀的适合,就会使用这种类型的评估,如下图。
[外链图片(img-5skxSZa2-1653407804303)(pic\image-20220515102032615.png)]
自底向上策略
通常,自底向上策略从更小粒度的数据级别动态地派生文档分析。它使用像素分布统计、连接组件的属性、单词、文本行或区域来估计参数。一般来说,自底向上分析开始于图像的精细级别,如像素、组件或单词。然后,分析发展成更大的文档区域,并在达到预定义的分析目标时停止。讨论基于五个核心类别的自下而上策略:连接成分分析、纹理分析、基于学习的分析、Voronoi图和Delaunay三角剖分。
-
连接成分分析:连接组件分析允许更灵活的布局分析,因为它提供了广泛的形状属性。
Docstrum算法是最早成功的基于连通分量分析的自底向上算法之一。它在极结构(距离和角度)上对连接的组件(CC)进行分组,以派生出最终的分割。尽管Docstrum可以覆盖广泛的布局,但它已经在打印文档上进行了测试。此外,连接构件的局部特征帮助研究人员解决了一些历史手稿布局问题[30,31]。Rabaev等人的另一项研究提出了连通分量在灰度和二进制版本上的演化映射。
通常,基于连接组件的布局分析需要特征提取和机器学习方法。例如,Tran等人提出了一种迭代分类方法,使用连接的分量来区分四类文档分量:图形、分隔符、文本和噪声。在每次迭代中,该方法从一个块中删除与相邻块不一致的任何连接组件。如果连接的组件是非文本的,则它是不均匀的。这一进程将继续下去,直到所有区域都变得相同(即只有文本)。
-
纹理分析:纹理分析具有快速检测文档-图像元素的优点。可以将纹理分析技术分为自底向上或自顶向下的技术。自底向上纹理分析通常是直接从图像像素中提取纹理特征。然后,利用这些特征对像素进行分组,形成均匀区域。例如,空间自相关方法就是基于自底向上纹理的DLA的一个例子该算法自动将文档图像与自身关联,以突出周期性和纹理方向。最后,分析了定向rose的纹理取向。在rose-of-directions图中,文本的笔划被细响应突出显示,而粗响应代表图形元素。rose-of-directions的这种行为已被用于文档分割
Journet等人[77]算法的计算成本很高,因为计算特性需要通过重复调整整个文档图像的大小来覆盖多尺度。相反,移动窗口应该调整大小以实现多尺度特征并降低计算需求。
由于自相关方法的成功应用,人们将其与其他纹理分析技术进行了比较,如灰度共生矩阵(Gray Level Co-occurrences Matrix, GLCM)和Gabor滤波器组。作者的结论是,如果使用不同的字体或相似的书写风格,Gabor filter适用于区分文本区域,而如果文档拥有复杂的布局或文本使用不同的字体,自相关方法更好。
直接在像素级上工作的纹理分析计算起来非常昂贵。Mehri等人提出了基于超像素的DLA。超像素是一组共享相似空间和强度信息的像素。虽然超像素化步骤可以利用前景和背景之间的分离,并促进布局分析,但它增加了整体分析时间。最后,对9种纹理特征提取方法进行了比较研究。他们的研究得出结论,在被测试的9种技术中,Gabor纹理是区分文本内容和图形内容的最佳选择。此外,他们可以有效地区分不同的字体
-
机器学习文档分析:机器学习方法可以被视为自上而下或自下而上的方法。由于该方法使用直接像素强度或像素特征来识别区域和区域,因此将机器学习DLA方法归类为自下而上的。
有几项DLA研究认为机器学习可以解决各种文档理解问题,包括预处理、分割和标记任务。DLA采用了多种机器学习算法,如径向基函数网络、概率神经网络、自组织映射、时间延迟神经网络、空间位移神经网络、支持向量机等。然而,多层感知器(MLP)架构和学习方案是文献[99]中使用的最主要的人工神经网络(ANN)风格。
-
非深度学习方法。非深度学习方法使用简单的神经网络结构来学习DLA的机器模型。神经网络分析分为三个层次进行:像素、块和页面。与基于特征的模型相比,直接像素强度可能不是构建传统机器学习模型的最佳选择。
数据不平衡和上下文信息缺失是基于学习的方法面临的主要问题。例如,给定一个文档作为模型训练的输入数据,文本或背景数据通常比线图或徽标数据大得多。因此,经过训练的模型可能会偏向文本或背景像素。
[22]提出了一种利用像素值和上下文信息学习低偏差机器模型的动态MLP (DMLP)。动态MLP网络没有完全连接,以减少数据不平衡对机器模型训练的影响。在机器学习DLA中使用纯像素时出现的另一个问题是失去上下文信息.
通常,基于块和页面的神经网络分析需要特征提取方法,以增强神经网络训练和建立鲁棒模型。这些功能既可以人工制作,也可以自动生成。手工特征是通过特征提取技术开发的,如梯度形状特征(GSF)或尺度不变特征Transform (SIFT)等。Garz等发现SIFT兴趣点通常分散在文本区域周围。因此,它可以用于文本行提取任务。还有其他一些使用特征提取方法的技术,如纹理特征,几何特征。
-
深度学习方法。可以使用诸如[38]之类的权重来减少数据不平衡的影响。
Capobianco等人提出了一种带减重方案的全卷积神经网络(FCNN)。该方法主要用于文本行提取,其中FCNN中建议的加权损失有助于平衡前景和背景像素之间的损失函数。
Chen等人[42]的另一项研究建议自动堆叠卷积自动编码器从超像素学习特征,用于文档布局分析。像素到超像素的分组减少了数据不平衡的影响。
Wick和Puppe提出了一种FCNN方法,由5个编码器和3个解码器组成,用于文档布局分析。他们的方法需要一个二值化步骤,以便在预处理阶段跟踪文档的前景像素。然后,使用相同的二进制掩码进行后期处理FCNN分割结果
Grüning等人提出ARU-Net,ARU-Net是对U-net的扩展,它考虑了特殊注意(A)和深度剩余结构®,以克服以往深度学习方法的池化问题。利用聚类算法对该复杂深度网络的分割结果进行后处理,识别文本行。
Chen等人提出了一个简单的FCNN架构,包含一个卷积层用于页面分割。他们的结果可以与复杂的深层网络相媲美。
Oliverira等人的研究提出了一种使用卷积神经网络的多任务文档布局分析方法。该方法采用ImageNet[51]进行迁移学习。利用ImageNet作为深度残差网络,通过5个收缩步骤重构分割结果。
分层网络初始化可以从目标数据中获取网络参数,从而加速模型训练并稳定性能精度。该方法试图从目标数据的样本中提供最佳的初始权重。这种方法的两个例子是主成分分析(PCA)[141]和线性判别分析(LDA)[5]。将两种方法与随机权值初始化方法进行了比较,证明了两种方法在模型收敛速度和模型性能精度方面都比较稳定。
总之,基于学习的方法在处理各种文档布局(包括复杂的文档布局)方面表现出了良好的性能。但是,他们仍然有一些缺点。例如,机器学习方法需要更多的调查来解决数据不平衡,开发具有代表性的特征,并派生出精确和自动的基于区域的分割。尽管使用深度学习方法生成特征,它们仍然需要后处理方法,如聚类或形态学清理来提高分割结果。
-
-
Voronoi-Based分析
分割任意文档布局是一项具有挑战性的任务。任意布局通常没有特定的形状,但可以被多边形包围。Voronoi图是一个可以定义任意区域边界点的解决方案。它不假设文档布局形状,可以用Kise的方法描述各种布局的边界点。在Kise的方法中,Voronoi图是使用连接组件构建的。此外,通过选择具有两个特征的Voronoi边缘进行分析;距离和面积比。这种方法的缺点是使用连接组件的质心来定义Voronoi点。这是因为连接组件通常是非凸的,这使得单点表示不合适。而在[2]、[35]和[96]中,建议将每个连接的分量用两点表示。
-
德劳内三角测量分析
一般来说,Delaunay三角剖分是一个对偶Voronoi图,但是它们的边是在文档元素内部定义的,而不是在文档元素之间定义的[56]。此外,Delaunay边缘点简化了区域分割规则:
1)最小的边点表示同一文本行上的文本分量
2)最大的边点表示相邻文本行之间的文本分量
3)边长大于某些预先计算的阈值的三角形表示文本列区域或边距边界
根据这些规则,Delaunay三角剖分算法成功地解决了文本分割问题。