【论文阅读】PageNet:Page Boundary Extraction in Historical Handwritten Documents

论文地址:https://arxiv.org/abs/1709.01618

 

【概要】

当将一个文档电子化成一张图像,常见的方法是包括一个周围的边界区域来视觉上显示整个文档在图像中的位置。但是,在自动化处理前,这个边界需要被移除。在我们的工作中,我们展示一个基于深度学习的系统PageNet,它可以确定在图像中的主要页面区域,以便从文本和非文本边界噪声中分割出内容。在 PageNet中,一个FCN获取像素级的分割,然后被放入输出四边形区域的模块进行后处理。我们在4个历史手写文档集合上测试了PageNet,在所有的数据集上获得了超过94%的平均IOU,并且在其中两个集合中的效果接近人类的表现。此外,我们展示了PageNet可以对放置其他文档上的文档进行分割。

 

 

一、介绍

类似于概要

 

 

二、相关工作

传统边界噪声去除技术

Fan et al. 通过分辨率降低的方法检测噪声,并且通过区域生长或局部阈值来移除噪声,以便从印刷文本中移除非文本的边缘扫描噪声(例如大的黑色区域)

Shafait et al. 通过最大化一个关于由联通成分、文本行和区域组成的输入布局分析的质量函数,来发现图像中的页面框,解决了文本和非文本边缘噪声

Shafait和Bruel 的方法检测固定图像区域中的局部黑白像素密度来确定噪声,并且去除靠近图像边缘的连通成分

Stamatopoulos et al. 提出了一个基于投影特征来发现在一张图片中有两页的图像中的两个独立页面框的系统

Bukhari et al. 通过检测文本行、对齐文本行端点,并且从端点使用随机样本一致性线性回归来评估直线,找到了相机抓取的文档中的页面框

边框噪声检测的近期调查:Arpita Chakraborty and Michael Blumenstein.2016. Marginal Noise Reduction in Historical Handwritten Documents–A Survey.In Document Analysis Systems (DAS), 2016 12th IAPR Workshop on.IEEE,323–328.

 

另一种去除边界噪声的方法是找到页面四边形边框的四个角落,这是与透视扭曲恢复技术共享的子任务

Jagannathan et al. 通过在透视变换图像中确定两个平行线和两个垂直线,在照相机获取的文档中发现页面角落

Yang et al. 使用霍夫直线变换来检测二值化牌照图像中的边界

 

智能剪刀通过在一个定义在像素点上的带有输入约束的加权图中发现最小代码路径,来从背景中分割物体

主动轮廓或蛇分割模型作为一个连续优化问题,通过最小化边界能量损失和从一些先前形状变形的代价来发现目标边界

图切割方法将图像分割任务阐述为找到由图像构建的图的最小割。图上的权重由像素点的颜色和每个像素点被分配到前景和后景的先验损失决定。

GrabCut 从一个粗略地边界框开始迭代地进行图分割。每次迭代的结果被用来改进颜色模型,用来构建下一次迭代时的图中边的权重。

 

神经网络方法:

FCN学习端到端的分类函数,来完成图像中每个像素的分类,但是由于FCN结构中采用下采样,因此输出的局部性较差

Zheng et al. 将CRF 图模型整合到了FCN,提升了分割的局部性

空间转换网络结合特定的目标任务学习了一个潜在的仿射变换,有效地学习了端到端的裁剪、旋转、倾斜矫正。

Chen和Seuret 使用卷积网络将超像素分类到背景、文本、装饰和注释

 

 

三、方法

模型由两部分组成:

①FCN来将像素进行页面或者背景的分类

 

②提取四边形区域的后处理

3.1 像素分类

输入:X 维度:3*H*W

输出:Y 维度:H*W, 每个像素点0或者1

网络结构图来自 https://arxiv.org/pdf/1708.03276.pdf

使用一个分支FCN在尺度1/1,1/2,1/4,1/8上来计算特征。网络一共有9层,宽度为64,共有4个尺度,核大小为9。在每一层,2*2的average pooling被用来产生额外的更小规模的FCN分支。在每个规模上经过一些卷积层之后,输出采用双线性差值被上采样到原始大小。之后接上两个卷积层来将不同规模的输出连接起来。这使得FCN可以利用局部特征和不断增加的全局特征来进行像素分类。

 

3.2 四边形

由于FCN基于局部上下文独立地预测像素分类,输出的结果缺乏全局和局部的空间一致性

(b)将FCN的预测结果进行二值化

(c)去除除了最大前景连通分量以外的其他内容

移除false positive的分量,这些错误是由于FCN根据局部内容分类

(d)填充小洞

移除false negative分量

(e)使用旋转卡尺法找到最小面积的矩形边框

对于在实际页面边框外的false positive像素敏感

(f)迭代地扰动角落,使得在预测像素和四边形之间最大化IOU

每次测量4个角落的16个扰动(每个角落每次向四个方向移动一个像素),贪心地选取最高的IOU更新,直到扰动对结果没有提高

后处理是在256*256的图像上进行的,因此将四边形上采样至原来的尺寸时会出现量化失真(quantization artifacts)的情况

3.3 PageNet实现细节

使用caffe框架

首先将彩色图像resize至256*256像素,像素点的强度规约至[-0.5, 0.5],标注数据的大小也转成256*256

尽管更大的尺寸的输入图片可以稍微更高的分割准确率,我们在256*256的大小上取得了很好的结果并且计算十分快速。一开始的实验采用128*128的输入,但是准确率更差。

【训练参数】:

优化方法:随机梯度下降SGD 15000次权重更新,mini-batch为两张图像

初始学习率为0.001,10000次权重更新后降为0.0001

冲量(momentum)为0.9,L2正则系数为0.0005,L2范数为10的裁剪梯度

训练了10个网络,使用验证集选取最佳网络进行展示

 

四、数据集

①ICDAR 2017 CBAD 各种分布复杂程度的手写文档

Training/validation/test : 1635/200/200

②CODH PMJT

③Saint Gall 9世纪的手写文稿

④Ohio death record 叠放的文档

 

 

五、结果

评价指标:平均交并比(mean Intersection over Union)mIoU

5.1 基准系统

①Full image:整个图像作为页面区域

②Mean quadrilateral:

第i个标记的四边形为(xi1, yi1, … , xi4, yi4)

N为训练图像个数,wi和hi分别为第i张图像的宽和高

 

③GrabCut :使用opencv库

初始时采用5像素宽的边框将整个图像作为边框,由于GrabCut输出一个像素掩码而非四边形,因此将其与提取四边形前的PageNet结果进行比较

5.2 总体结果

在所有的数据集中,完整的PageNet系统的表现是最佳的,大大超过了基准方法。

四边形的输出提高了在FCN输出的分割的结果,这说明输出一个简单的区域没有降低分割准确率

在CBAD的不同数据集切分中的结果有轻微不同,这说明模型没有过拟合

在CBAD中的一些图像中,图片被很好的切割因此至含有主页面区域,这对于GrabCut会是一个问题,因为该模型总是尝试区分两个不同区域。相反,PageNet就可以将整个图像分类为主页面

 

5.3 与人类的认同对比

表中最后一列展示了第二个标注对于第一个标注的评分,这一结果展示了在该任务上,人类识别的误差、歧义和固有的认知误差。一定程度上,该评分对于自动识别系统来说很难超过。对于CBAD,PageNet仅仅比人类认同低了1%,而在PMJT数据集上,PageNet的结果与人类认同还有差距,说明识别系统还有提升的空间。

我们还测试了同一数据标记者在不同的日期对同一图像的标记结果,mIoU在CBAD-test 和 CBAD-val上分别为99.0%和98.4%,这说明页面区域标注的固有歧义。

 

5.4 叠放的性能

 

我们在Ohio death records的私人数据集上训练,这个数据集有一些图像是一个文档叠放在另一个文档上的,这造成了十分有挑战性的文本噪声

在有文本叠放时,PageNet只将叠放在上面的文档分割出来,当叠放的文档移除时,它会从背景中将下面的文档分割出来。

 

六、总结

我们展示了一个深度学习系统PageNet,它可以通过将主要页面区域从图像的其他部分分割出来来去除边界噪声。 一个FCN首先预测每个输入像素点的分类,接着一个四边形区域从FCN的输出中抽取出。我们在接近训练集的图像上展示了接近人类表现,并且在其他数据集上展示了良好的性能。在另外一个数据集中,我们展示了PageNet可以正确地分割叠放的文档。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值