【读点论文】A SURVEY ON DEEP LEARNING BASED DOCUMENT IMAGE ENHANCEMENT,复杂场景的文档预处理任务还有很多进步空间

A SURVEY ON DEEP LEARNING BASED DOCUMENT IMAGE ENHANCEMENT

ABSTRACT

  • 如今,数字化文件(例如科学论文、税务表格、发票、合同文件、历史文本)被广泛使用。这些文档图像可能由于各种原因而质量下降或损坏,包括光线不足、阴影、噪声和模糊等失真、老化、墨迹、渗透、水印、印章等。文档图像增强在许多自动化文档分析和识别任务(例如字符识别)中起着至关重要的预处理步骤作用。随着深度学习的最新进展,提出了许多方法来提高这些文档图像的质量。在本文中,我们回顾了基于深度学习的六种主要文档图像增强任务的方法、数据集和指标,包括二值化、去模糊、去噪、去淡化、水印去除和阴影去除。我们总结了每项任务的最新成果,并讨论了它们的特点、挑战和局限性。我们介绍了多个很少受到关注的文档图像增强任务,包括过度曝光和曝光不足校正、超分辨率和渗透去除。我们确定了几个有希望的研究方向和未来研究的机会。
  • 论文地址:[2112.02719] A Survey on Deep learning based Document Image Enhancement (arxiv.org)

Introduction

  • 如今,数字化文件随处可见,例如科学论文、税务表格、发票、合同文件、人事记录、法律文件、历史文献等。这些文件可能因水印、印章、老化、墨迹、渗色等而受损,也可能因光线不足、阴影、相机失真(如噪声和模糊)等原因在数字化过程中质量下降。

  • 质量下降的文档图像的视觉质量和可读性较低。它们可能包含手写或机器打印的文本,或两者兼而有之。此外,它们可能包含使用不同语言的多种手写风格。更复杂的是,用于打印文档的机器可能使用了各种质量不稳定的技术(例如,以低 DPI 打印的文档),从而影响捕获图像的质量。此外,由于各种原因,例如湿度、被冲洗、存储不当、介质质量低下等,旧文档可能会随着时间的推移而质量下降。因此,有许多因素会影响数字化文档图像的质量和可读性。

  • 质量下降的文档图像使字符识别 (OCR) 等自动文档分析任务变得非常具有挑战性,这些任务在这些图像上的表现很差。另一方面,手动增强此类图像是不切实际的,有时甚至不可行,尤其是大规模图像,因此开发能够自动增强这些图像的视觉质量和可读性并恢复损坏部分的方法至关重要。

  • 文档图像增强问题包括文献中研究的几个任务。在本综述中,我们重点关注图 1 中所示的六个主要任务,并在第 2 节中详细解释每个任务。这里我们总结了这些任务:

    • 二值化:旨在将背景与前景(即文本)分离,以消除噪音、墨迹、渗透、皱纹等。此任务的输出是一个二值图像,有两个类:前景和背景。

    • 去模糊:此任务旨在从文档图像中去除各种模糊类型,例如高斯、运动、散焦等。

    • 去噪:去噪旨在从文档图像中去除各种噪声类型,例如椒盐、皱纹、狗耳、背景和污点等。

    • 淡化:旨在改善褪色的文档图像。文档可能由于反复曝光、过度曝光或褪色等原因而褪色。

    • 去除水印:某些文档(例如财务表格)可能包含水印,水印下的文本可能无法识别。此任务旨在去除此类水印。

    • 阴影去除:拍摄图像时遮挡光源(通常使用手机)可能会在拍摄的文档图像上留下阴影。此任务旨在估计阴影并将其去除。

    • 在这里插入图片描述

    • 图 1:文档图像增强问题。

  • 随着深度学习的最新进展,基于深度学习的方法已被提出并应用于不同的计算机视觉和图像处理任务,例如对象检测、语义分割 、人脸检测和数据集创建和图像增强等。事实证明,这种基于深度学习的方法取得了令人鼓舞的结果并超越了传统方法。同样,基于深度学习的文档图像增强问题方法在过去几年中也受到了极大的关注。 本综述的目的是回顾这些方法并讨论它们的特点、优点、缺点、挑战和局限性,并确定未来研究的机会。据我们所知,本综述是首次对基于深度学习的文档图像增强方法的最新进展进行综述。我们在本文中有几个关键贡献:

    • 我们回顾了基于深度学习的文档图像增强方法的最新进展(主要是过去五年),以帮助读者和研究人员更好地理解这一研究领域。
    • 我们概述了六个主要文档图像增强问题,包括二值化、去模糊、去噪、去噪、去除水印和去除阴影。
    • 我们回顾了最先进的方法,并讨论了它们的特点、优点和缺点,以帮助研究人员和调查人员选择适合他们需要的方法。
    • 我们引入了几个重要的文档图像增强任务,这些任务很少受到关注,例如去除渗透。
    • 我们确定了几个未解决的问题以及未来研究的有希望的研究方向和机会。

Document Image Enhancement Tasks

  • 在本节中,我们描述了六个主要的文档图像增强任务,包括二值化、去模糊、去噪、去淡化、去除水印和去除阴影。图 2 显示了每个任务的一些图像示例。

Binarization

  • 文档图像二值化是指将灰度或彩色图像分割为仅包含文本和背景的黑白或二进制图像的过程。在此过程中,任何现有的劣化(如渗透、噪声、印记、墨迹、褪色字符、伪影等)都将被消除。正式地说,它为宽度为 W、高度为 H 的文档图像 D o r i g D_{orig} Dorig 寻找决策函数 f b i n a r i z e ( ) f_{binarize}() fbinarize(),使得相同大小的结果图像 D b i n a r i z e d D_{binarized} Dbinarized 仅包含二进制值,同时至少保持整体文档的可读性(如果不增强的话)。图 2a 显示了一个图像及其二值化图像的示例。

    • D b i n a r i z e d = f b i n a r i z e ( D o r i g ) D_{binarized}=f_{binarize}(D_{orig}) Dbinarized=fbinarize(Dorig)
  • 在这里插入图片描述

Debluring

  • 如今,智能手机被广泛用于数字化文档。这可能会引发各种问题。最常见的问题是在捕获过程中可能引入的模糊。例如,文档的移动、相机失焦和相机抖动会使捕获的图像变得模糊。图 2b 显示了模糊文档图像及其对应的清晰图像的示例。

    • 在这里插入图片描述
  • 去模糊方法的目标是恢复模糊文档图像的干净或去模糊版本。这些方法可以基于先验或基于学习。前者试图估计模糊核和相应的参数来检测模糊,并使用这些参数去除模糊,从而恢复干净的图像。基于学习的方法(也称为数据驱动方法)在过去十年中被广泛使用。这些方法利用深度神经网络和大量数据来提出一种去模糊模型,该模型无需任何先验即可恢复干净的图像。

  • 文档图像去模糊是一个不适定问题,与自然/非文档图像去模糊相比,这是一个更具挑战性的问题。主要原因之一是 OCR 引擎的性能直接取决于输入的文档图像的质量。如果这些文档图像的可读性和质量较低,OCR 输出的性能也会受到影响。因此,增强的文档图像不仅需要在视觉上得到改善,还需要变得更加清晰易读。

Defading

  • 褪色是恢复已褪色/模糊的文档文本的过程。文档内容可能因各种因素而褪色。例如,墨水会随着时间的推移而磨损,这在旧文档中更为普遍。 数字化文档时,阳光或过度曝光也会使文档内容变浅,难以阅读。此外,手写或印刷文本一开始就很模糊,随着时间的推移会恶化。这种类型的退化会带来视觉质量低、可读性差和 OCR 性能差等问题。褪色方法主要试图提高可见性并恢复更清晰的文档图像版本。图 2c 显示了褪色文档图像的示例及其对应的基本事实。
    • 在这里插入图片描述

Denoising

  • 某些文档可能包含诸如盐和胡椒噪声、印章、注释、墨水或咖啡渍、皱纹等伪影。当某些类型的伪影覆盖文本时,图像恢复会更加困难,特别是在伪影颜色与文档文本颜色相似或更深的情况下。为了提高这些文档图像的视觉质量以及可读性,提出了恢复降级文档的干净版本的方法。试图去除这些伪影的方法包括文档图像去噪、清理和二值化方法。图 2d 说明了嘈杂文档图像的示例及其基本事实。
    • 在这里插入图片描述

Shadow Removal

  • 可以使用扫描仪或手机摄像头将文档数字化。过去,扫描仪通常用于将文档数字化,并且质量很高,但随着手机的普及,越来越多的人倾向于使用手机摄像头代替扫描仪来获取文档的数字副本。使用手机拍摄的文档图像容易受到阴影的影响,主要是因为光源经常被相机甚至是人的手遮挡。此外,即使没有可能成为遮挡源的物体,在现实生活中拍摄文档图像时,光线也经常不均匀。因此,特别是用手机相机数字化的文档图像可能会受到阴影阻挡部分或全部文档以及不均匀的照明和阴影的影响。这会导致视觉质量和可读性不佳。阴影去除方法侧重于估计投射在文档图像上的阴影,并尝试将其去除,以恢复干净、光线均匀的文档图像,该图像比阴影版本更清晰。图 2e 展示了带有阴影的文档图像样本及其基本事实。
    • 在这里插入图片描述

Watermark Removal

  • 某些文档(例如财务表格)可能包含一个或多个水印,这些水印会遮挡文档文本或使其难以阅读。与去噪类似,如果水印颜色与文档文本颜色相同或更深,或者水印又厚又密,文档图像恢复会更加困难。因此,我们需要能够恢复降级文档的干净版本的方法。水印去除方法专注于去除水印,以提高文档图像的视觉质量和可读性。图 2f 显示了图像样本及其此任务的基本事实。
    • 在这里插入图片描述

Datasets

  • 在本节中,我们描述了文献中用于不同文档图像增强任务的数据集。 表 1 提供了这些数据集的规格,我们将在下面更详细地描述它们。此外,图 3 显示了来自这些数据集的图像样本。

    • 在这里插入图片描述
  • 比克利日记 :比克利日记数据集的图像取自大约 100 年前写的日记的复印件。这些图像遭受了不同类型的损坏,例如水渍、墨水渗透和明显的前景文本强度。该数据集包含 7 张文档图像/页面以及二值化/干净的 GT 图像。

  • NoisyOffice :此数据集包含两组图像:1)真实嘈杂办公室:包含 72 张扫描噪声图像的灰度图像,2)模拟噪声办公室:包含 72 张扫描模拟噪声图像的灰度图像,用于训练、验证和测试。此数据集中的图像包含各种样式的文本,其中添加了合成噪声以模拟现实世界中杂乱的伪影。

    • 在这里插入图片描述
  • S-MS(同步多光谱古代文献):多光谱成像(MSI)是一种创新且无损的技术,可用于分析古代文献等材料。他们收集了一个古代手写信件的多光谱图像数据库。该数据库包含 30 封真实的历史手写信件的多光谱图像。这些极其古老的文件都是用铁胆墨水书写的,书写时间从 17 世纪到 20 世纪。原始文件是从魁北克国家图书馆借来的,并使用 CROMA CX MSI 相机进行了成像。通过这一过程,他们为每份文件生成了 8 张图像,总共生成了 240 张真实文件的图像。

    • 在这里插入图片描述
  • Tobacco 800 :这是一份公开可用的子集,包含 4200 万页文档,这些文档使用各种设备扫描而成。它包含现实世界中的文档,其中包含不同类型的噪声和伪影,例如签名上的印章、手写文本和标尺线。Tobacco800 中的文档分辨率差异很大,从 150 到 300 DPI 不等,文档图像的分辨率从 1200x1600 到 2500x3200 像素不等。

    • 在这里插入图片描述
  • DIBCO 和 H-DIBCO:这些数据集自 2009 年以来一直用于文档图像二值化竞赛。 有 DIBCO 2009 、H-DIBCO 2010 、DIBCO 2011 、H-DIBCO 2012 、DIBCO 2013 、H-DIBCO 2014 、H-DIBCO 2016 、DIBCO 2017 、H-DIBCO 2014 、H-DIBCO 2018 。DIBCO 数据集包含印刷和手写文档图像,主要用于二值化任务

  • SmartDoc-QA :这是一个用于评估智能手机拍摄的文档图像质量的数据集,其中包含单个和多个失真。该数据集是使用智能手机摄像头拍摄的文档图像创建的,拍摄条件各不相同,例如光线、阴影、不同类型的模糊和透视角度。SmartDoc-QA 分为三类文档子集:当代文档、旧行政文档和商店收据。

    • 在这里插入图片描述
  • 模糊文档图像 (BMVC) :训练数据包含 3M 训练和 35k 验证 300x300 图像块。每个图像块都从不同的文档页面中提取,并且使用的每个模糊内核都是唯一的。

  • Monk Cuper 数据集 (MSC) :该数据集包含 25 页从真实历史文献中抽样的样本,这些文献是从 Monk 系统的 Cuper 藏书中收集的 。MSC 文档遭受严重的渗透退化和纹理背景问题。

    • 在这里插入图片描述
  • 波斯遗产图像二值化数据集 (PHIDB) :PHIDB 2012 数据集包含 15 幅历史文档图像及其对应的真实二值图像。此数据集中的历史图像遭受各种类型的退化。特别是两种类型的前景文本退化:模糊和弱笔划/子笔划,背景退化类型:全局渗透、局部渗透、不必要的线条/图案和异形墨水。

Metrics

  • 在本节中,我们描述了文献中针对不同文档图像增强任务使用的评估指标

  • 峰值信噪比 (PSNR):PSNR 是一种基于参考的指标。它提供逐像素评估,能够指示文档增强方法在视觉质量方面的有效性。 PSNR 测量信号的最大可能值与影响质量的失真噪声功率之间的比率。换句话说,它测量两幅图像的接近度。PSNR 值越高,两幅图像的相似度就越高。MAX 是图像的最大可能像素值。当使用每个样本 8 位表示像素时,MAX 为 255。给定两个 MxN 图像,该指标将公式化如下:

    • P S N R = 10 l o g ( M A X 2 M S E ) M S E = ∑ x = 1 M ∑ y = 1 N ( I ( x , y ) − I ′ ( x , y ) ) 2 M N PSNR=10log(\frac{MAX^2}{MSE})\\ MSE=\frac{\sum^M_{x=1}\sum^N_{y=1}(I(x,y)-I'(x,y))^2}{MN} PSNR=10log(MSEMAX2)MSE=MNx=1My=1N(I(x,y)I(x,y))2
  • 结构相似性指数 (SSIM) :SSIM 是一种基于参考的度量,旨在测量两幅图像之间的结构相似性并量化图像质量下降。SSIM 计算需要来自同一幅图像的两幅图像,即参考图像和处理后的图像。它实际上测量了两幅相似图像之间的感知差异。该度量从图像中提取三个关键特征:亮度、对比度和结构。两幅图像之间的比较是基于这三个特征进行的。

  • 字符错误率 (CER):字符错误率是根据编辑距离计算的。它是将基本事实或参考文本转换为 OCR 输出文本所需的最少字符级操作数。CER 公式如下:

    • C E R = S + D + I N CER=\frac{S+D+I}{N} CER=NS+D+I

    • 其中 S 是替换的数量,D 是删除的数量,I 是插入的数量,N 是参考或基本事实文本中的字符数。

    • CER 表示在 OCR 输出中被错误预测或误识别的参考文本字符的百分比。CER 值越低,OCR 模型的性能越好。CER 可以进行归一化,以确保它不会因多次插入而超出 0-100 的范围。在归一化 CER 中,C 是正确识别的数量。归一化 CER 的公式如下:

    • C E R n o r m a l i z e d = S + D + I S + D + I + C CER_{normalized} =\frac{S + D + I }{S + D + I + C} CERnormalized=S+D+I+CS+D+I

  • 词错误率(WER):词错误率可以更多地用于评估段落和句子的 OCR 性能。WER 公式如下:

    • W E R = S w + D w + I w N WER=\frac{S_w+D_w+I_w}{N} WER=NSw+Dw+Iw

    • WER 的计算方式与 CER 类似,但 WER 是在单词级别进行计算的。它表示将一个句子转换为另一个句子所需的单词替换、删除或插入次数。

  • F 度量 :F 度量得分是精度和召回率的调和平均值。精度是阳性预测值,召回率又称敏感度,用于二元分类。F 度量公式如下:

    • F M = 2 P R P + R R = T P T P + F N P = T P T P + F P FM=\frac{2PR}{P+R}\\ R=\frac{TP}{TP+FN}\\ P=\frac{TP}{TP+FP} FM=P+R2PRR=TP+FNTPP=TP+FPTP

    • TP、FP、FN 分别表示真正例、假正例和假负例值。

  • 伪 F 测量 (Fps) :Fps 在 [Performance evaluation methodology for historical document image binarization] 中引入,它利用了伪召回率 Rps 和伪精度 Pps。它遵循与上面解释的 F 测量相同的公式,特别用于二值化任务。

    • 对于伪召回率,根据局部笔画宽度对真实值 (GT) 前景的权重进行归一化。通常,这些权重在 [0,1] 之间。对于伪精确率,权重被限制在扩展到 GT 背景的区域内,同时考虑到最近的 GT 组件的笔画宽度。在此区域内,权重大于 1(通常在 (1,2] 之间),而在此区域之外,权重等于 1。
  • 距离倒数失真度量(DRD):DRD度量用于测量二进制文档图像中的视觉失真。它与人类的视觉感知相关,它测量所有像素的失真程度,如下所示:

    • D R D = ∑ k = 1 S D R D k N U B N DRD=\frac{\sum^S_{k=1}DRD_k}{NUBN} DRD=NUBNk=1SDRDk

    • 其中 NUBN 是 GT 图像中非均匀 8x8 块的数量,DRDk 是使用 [Distance-reciprocal distortion measure for binary document images] 中定义的 5x5 归一化权重矩阵 WNm 计算的第 k 个翻转像素的失真。DRDk 等于 GT 的 5x5 块中与二值化结果图像中 (x; y) 处中心第 k 个翻转像素不同的像素的加权和(公式 11)。

    • D R D k = ∑ i = − 2 2 ∑ j = − 2 2 ∣ G T k ( i , j ) − B k ( x ; y ) ∣ × W N m ( i , j ) , ( 11 ) DRD_k = \sum^2 _{i=−2} \sum^2 _{j=−2} |GT_k(i, j) − B_k(x; y)|× WNm(i, j), (11) DRDk=i=22j=22GTk(i,j)Bk(x;y)×WNm(i,j),(11)

Document Image Enhancement Methods

  • 在本节中,我们描述了基于深度学习的文档图像增强的主要方法,并讨论了它们的特点、挑战和局限性。这些工作大多侧重于多项任务,因此在本节中,我们按时间顺序讨论文档增强方法。表 3 总结了这些方法的优点、缺点和结果。下面,我们将更详细地描述这些方法。

    • 在这里插入图片描述

    • 在这里插入图片描述

  • [Convolutional neural networks for direct text deblurring] 中介绍的方法针对文档图像去模糊问题而提出。作者提出了一种小型且计算效率高的卷积神经网络模型来去模糊图像,而无需假设任何先验。特别是,作者专注于逼真的离焦模糊和相机抖动模糊的组合。他们证明了所提出的网络在图像质量、PSNR 和 OCR 准确度、CER 方面都明显优于现有的盲反卷积方法。所提出的模型也可以在移动设备上使用。

  • 在另一项文档图像去模糊工作 [Learning to super-resolve blurry face and text images] 中,作者提出了一种算法,可以从模糊的低分辨率输入中直接恢复高分辨率的去模糊图像。其他去模糊方法(如 Hradis 等人 [Convolutional neural networks for direct text deblurring] 的方法)无法轻易扩展到联合超分辨率和去模糊任务。这项工作重点关注模糊人脸和模糊文档图像分布,并使用单个生成器网络开发了一个多类 GAN 模型来学习特定类别的先验并处理多类图像恢复任务。作者在对抗环境中采用了 Hradis 等人 提出的深度 CNN 架构。与 Hradis 等人不同,在这项工作中,生成器网络包含上采样层,它们是分数步幅卷积层,又名反卷积层。生成器首先对低分辨率模糊图像进行上采样,然后执行卷积以生成清晰的图像,因此输出将同时具有超分辨率和去模糊功能。由于他们的模型除了生成器网络之外还有鉴别器网络,因此与[Convolutional neural networks for direct text deblurring]中提出的模型相比,该模型更加复杂并且具有更多参数。

  • 生成的图像的视觉质量根据 PSNR 和 SSIM 进行了评估,但去模糊文档图像未根据 OCR 性能进行评估,并且未报告字符错误率或单词错误率(OCR 性能评估指标)。就 PSNR/SSIM 而言,这项工作在合成数据集和真实数据集上的表现均优于以前的工作。

  • 这项研究的一个限制是,由于模型是在多类图像上训练的,因此它本质上是为了近似这两类图像的混合分布而设计的,而当这种混合分布变得过于复杂时,很难学习一个统一的模型来覆盖所有图像类别的多样性。因此,这种方法对一般图像的效果较差。

  • [Document image binarization with fully convolutional neural networks] 中的作者专注于退化的历史手稿图像二值化,并将二值化任务制定为像素分类学习任务。他们开发了一种全卷积网络 (FCN) 架构,可在多个图像尺度(包括全分辨率)下运行。作者声称,所提出的二值化技术也可以应用于不同的领域,例如棕榈叶手稿,并且性能良好。

  • Zhao 等人 研究了去噪和去模糊问题,并提出了一种基于残差学习的文档图像恢复方法,称为跳跃连接深度卷积自动编码器 (SCDCA)。 他们采用了两种类型的跳跃连接,一种是受残差块启发的卷积层之间的恒等映射,另一种是将输入直接连接到输出。这些连接帮助网络学习噪声图像和干净图像之间的残差内容,而不是学习普通的变换函数。所提出的网络受到 的启发,它是一个 15 层的 CNN。与 [Convolutional neural networks for direct text deblurring] 中的方法相比,作者添加了批量归一化 和跳跃连接 ,以加速模型的模型收敛并提高性能。

  • 在 [Learning to clean: A gan perspective] 中,作者将图像恢复问题视为图像到图像的转换任务,即使用 GAN 方法将文档从嘈杂域(即背景噪声、模糊、褪色、水印)转换为目标干净文档。为此,他们采用了 CycleGAN 模型,这是一个非配对的图像到图像转换网络,用于清理嘈杂的文档。他们还通过插入徽标作为水印并在 Google 新闻文档数据集 上应用褪色技术,合成创建了一个用于水印去除和褪色问题的文档数据集。

  • [Document enhancement system using auto-encoders] 中的作者提出了一种端到端文档增强流程,该流程接收模糊和带水印的文档图像并生成干净的文档。他们训练了一个自动编码器模型,该模型可处理不同噪声级别的文档。他们采用了 [Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections] 中描述的神经网络架构 REDNET,并设计了一个具有 15 个卷积层和 15 个反卷积层的 REDNET,其中包括交替卷积层和镜像反卷积层之间的 8 个对称跳过连接。与全卷积网络相比,该方法的优势在于,在图像恢复等低级图像任务中,可以避免池化和反池化(这往往会消除图像细节)。这可以产生更高分辨率的输出。这项工作与 [Skip-connected deep convolutional autoencoder for restoration of document images] 的主要区别在于使用更大的数据集和训练盲模型。

  • 在 [Sixth workshop on statistical machine translation] 中,作者开发了卷积自动编码器来学习从输入图像到其选择输出的端到端映射,其中激活表示像素为前景或背景的可能性。经过训练后,该模型可应用于要二值化的文档,然后应用全局阈值。事实证明,这种方法在许多文档类型中的表现都优于现有的二值化策略。

  • 在 DE-GAN 中,作者提出了一种端到端框架,称为文档增强生成对抗网络。该网络基于条件 GAN 和 cGAN,用于恢复严重退化的文档图像。本文研究的任务是文档清理、二值化、去模糊和水印去除。 由于没有用于水印去除任务的数据集,作者合成创建了一个水印数据集,其中包括带水印的图像及其干净的 GT。

  • 作者提出了背景估计文档阴影去除网络 (BEDSR-Net),这是第一个专为文档图像阴影去除而设计的深度网络。他们设计了一个背景估计模块,用于提取文档的全局背景颜色。在估计背景颜色的过程中,该模块会学习有关背景以及非背景像素的空间分布的信息。他们通过对这些信息进行编码创建了一个注意力图。在估计了全局背景颜色和注意力图之后,阴影去除网络现在可以有效地恢复无阴影的文档图像。BEDSR-Net 在某些情况下可能会失败,包括当没有单一的主色时,例如一张完全具有颜色渐变的纸张,另一种情况是当文档完全被阴影覆盖,或者多个光源形成多个阴影时

  • 在另一项工作 [A conditional gan based approach for distorted camera captured documents recovery] 中,作者专注于使用智能手机相机数字化的文档。他们指出,这些类型的数字化文档极易受到各种扭曲的影响,包括但不限于透视角、阴影、模糊、扭曲等。作者提出了一个条件生成对抗网络,将扭曲的图像从其域映射到可读域。该模型在鉴别器部分集成了一个识别器,以便更好地区分生成的文档图像。

  • 在另一项研究 [End-to-end unsupervised document image blind denoising] 中,提出了一种端到端无监督深度学习模型,用于去除文档中的多种噪声,包括椒盐噪声、模糊和/或褪色文本以及水印。具体来说,他们提出了一种统一的架构,将深度混合专家 与循环一致的 GAN 相结合,作为文档图像盲去噪问题的基础网络。

  • 在 [Light-weight document image cleanup using perceptual loss] 中,作者针对智能手机应用程序等嵌入式应用程序上的文档图像清理问题,这些应用程序通常具有内存、能量和延迟限制。他们提出了一种轻量级编码器-解码器 CNN 架构,并结合了感知损失。他们证明了,就参数数量和乘积和运算而言,他们的模型比现有的 SOTA 文档增强模型分别小 65-1030 倍和 3-27 倍。

  • 在另一项工作 [Enhance to read better: An improved generative adversarial network for handwritten document image enhancement] 中,作者专注于增强手写文档,并提出了一种基于 GAN 的端到端架构来恢复已降级的文档。与大多数仅试图改善已降级文档的视觉质量的文档二值化方法不同,所提出的架构集成了一个手写文本识别器,可使生成的文档图像也更清晰易读。这种方法是首次在二值化手写文档时使用文本信息。他们对已降级的阿拉伯语和拉丁语手写文档进行了实验,并表明他们的模型既提高了已降级文档图像的视觉质量,也提高了其可读性

  • 在 [Sauvolanet] 中,作者提出了一种称为 SauvolaNet 的文档二值化方法。他们从深度学习的角度研究了经典的 Sauvola 文档二值化方法,并提出了一种多窗口 Sauvola 模型。 他们还引入了一种注意力机制来自动估计每个像素位置所需的 Sauvola 窗口大小,从而可以有效地估计 Sauvola 阈值。所提出的网络有三个模块,即多窗口 Sauvola、像素窗口注意力和自适应 Sauolva 阈值。多窗口 Sauvola 模块反映了经典的 Sauvola,但具有可训练参数和多窗口设置。下一个模块是像素窗口注意力,负责估计每个像素的首选窗口大小。另一个模块自适应 Sauolva 阈值结合了其他两个模块的输出并预测每个像素的最终自适应阈值。SauvolaNet 模型显著减少了所需的网络参数数量,并在文档二值化任务中实现了 SOTA 性能

  • MethodsAdvantagesDisadvantagesResults
    End-to-end unsupervised document image blind denoising以端到端的方式处理多种噪声,包括椒盐噪声、褪色、模糊和带水印的文档。它不依赖于配对的文档图像。计算起来很复杂。与前三种方法相比,该方法在 PSNR 和 OCR 方面具有最佳效果。
    Skip-connected deep convolutional autoencoder for restoration of document images方法快速且易于实施。定性和定量结果不足。边际 PSNR 改善。
    Learning to clean: A gan perspective适用于配对和非配对监督场景。PSNR 方面略有改善。
    Bedsr-net: A deep shadow removal network from a single document image第一个基于深度学习的阴影去除方法。 它适用于灰度和 RGB 图像。计算起来很复杂。它不适用于具有复杂背景和布局的图像。它只适用于部分阴影的文档。在五个不同的数据集上进行评估时,与之前的四项工作相比,它在 PSNR/SSIM 方面取得了最佳效果。它还可以相对较好地概括真实世界的图像。
    De-gan: A conditional generative adversarial network for document enhancement灵活的架构可用于解决其他文档降级问题。首次研究密集水印和印章去除问题。 在真实世界图像上具有良好的泛化能力。预先训练的模型可公开使用。计算复杂。它需要预先确定一个阈值,并且需要根据图像进行调整,这使得该方法不太实用。二值化:与前五名竞争对手相比,在 PSNR、Fmeasure、Fps 和 DRD 方面取得最佳效果。水印:与之前的三项工作相比,在 PSNR/SSIM 方面取得了最佳效果。去模糊:与之前的两项工作相比,在 PSNR 方面取得了最佳效果。
    Document enhancement system using auto-encoders适用于灰度和 RGB 水印。 适用于各种强度的模糊图像。定量评估和与之前研究的比较不足有效去除水印和模糊。 在九幅图像的小型测试集上改进了 OCR。
    Convolutional neural networks for direct text deblurring小型且计算效率高的网络。 可在移动设备上使用。在某些情况下会产生振铃效应。 当图像严重模糊时,无法很好地处理不常见的单词。与之前的四种方法相比,在 PSNR 和字符错误率方面优于其他方法。
    Learning to super-resolve blurry face and text images计算效率高的网络。 它可以同时进行去模糊和超分辨率。对于一般图像来说,概括性不佳。 忽略 OCR 性能评估,仅评估文档的视觉质量。在合成和真实数据集上均比以前的工作表现良好。
    A conditional gan based approach for distorted camera captured documents recovery它可以处理多个相机失真。 它包含一个文本识别器,用于生成更清晰的图像。模型仅对单行进行处理和训练,无法处理整页。与前三项工作相比,在字符错误率方面取得了最佳成绩,在 PSNR/SSIM 方面取得了第二名。

Open Problems and Future Directions

  • 在本节中,我们介绍了该领域的未解决的问题,并为未来的工作提供了几个方向。文档图像增强任务还远未解决,甚至有些任务还没有研究或研究得非常有限。我们在下面讨论这些问题和未来的工作。

Overexposure and underexposure correction tasks

  • 过度曝光问题发生在数字化文档时捕捉到过多光线时,主要是当捕捉设备是手机并且相机闪光灯给图像添加了过多反射或眩光时(图 4a)。即使在图像和照片增强领域,这个问题也没有得到足够的关注,据我们所知,还没有研究尝试解决文档图像的这个问题。要使用基于深度学习的方法解决这个问题,需要收集训练和测试数据集,因为没有可用于解决此问题的公共数据集
    • 在这里插入图片描述

    • 图 4:未解决的问题:过度曝光和曝光不足校正。

  • 另一方面,当数字化文档时光照条件较差,导致拍摄的图像变暗时,就会发生曝光不足(图 4b)。这个问题不同于阴影去除,因为阴影文档图像可能部分或不均匀地变暗 。虽然低光图像增强问题在照片中受到了很多关注,但在文档图像增强中并没有受到太多关注 。 未来的一项可能的工作是评估这些方法对文档图像的实用性。与过度曝光校正任务类似,为这个问题开发基于深度学习的方法需要训练/测试数据集,但这样的数据集不可用

Defading task

  • 褪色可能是由于暴露在光线下、反复照射、褪色等原因造成的。这项任务是另一项不恰当且研究不足的任务。当前的研究 [End-to-end unsupervised document image blind denoising] 做出了两个可能不切实际的假设。他们假设文件褪色均匀,文件褪色非常轻微(图 5a),而在现实世界中,文件可能会严重褪色和/或褪色不均匀,例如陈旧或褪色的文件(图 5b)。

    • 在这里插入图片描述

    • 图 5:褪色任务中的未解决的问题:严重和/或非均匀褪色的图像。

  • 严重褪色和/或褪色不均匀的文件难以阅读,对 OCR 来说非常具有挑战性,并且会严重影响 OCR 的性能,而轻微褪色的文件通常仍然清晰可辨,OCR 可以识别。因此,为了应对这些挑战,我们需要开发能够同时考虑严重褪色和褪色不均匀文件的解决方案。此外,要训练深度学习模型(针对轻微和严重褪色的文件),需要训练数据集,但与上面讨论的任务类似,没有这样的数据集可供公开使用。

Super-resolution task

  • 低分辨率文档通常难以阅读,而且对字符识别方法也极具挑战性。超分辨率低分辨率文档图像可以增强视觉质量、文本的可读性,更重要的是提高 OCR 准确率。文档图像超分辨率是一个不适定且具有挑战性的问题,尤其是当文档中存在伪影和噪音时。开发一个超分辨率文档图像(特别是低质量文档图像)的模型更加困难且更具挑战性。

  • 解决这个问题的一种方法是使用双三次插值,但这种基本方法可能会引入噪声或加剧文档(尤其是低质量文档)的噪声/伪影。为了提高文档图像的分辨率并恢复尽可能多的细节,我们需要超分辨率方法。通过对这些文档图像进行超分辨率处理,字符变得更加清晰,并且还可以提高 OCR 性能。

  • 虽然图像/照片超分辨率问题已经引起了广泛关注 ,但这项任务在文档图像方面却很少受到关注[Language independent single document image super-resolution using cnn for improved recognition、Building super-resolution image generator for ocr accuracy improvement]。作为未来的工作,我们需要开发专门针对低质量文档图像的有效超分辨率方法,以提高可读性和 OCR 性能。

Binarization task

  • 虽然二值化任务已受到广泛关注,但当前的二值化方法仍无法在多种情况下取得良好效果。具体而言,当图像对比度较低或文档中存在重影和渗透时,或者当图像为具有各种墨水颜色和强度的 RGB 时。这些情况对于二值化方法来说具有挑战性

  • 文档中出现重影是指可以看到页面另一侧的墨水或文本,但墨水无法完全渗透到另一侧。另一方面,渗透是指墨水渗透到另一侧并干扰正面的文本。这两个问题都使字符识别非常困难,尤其是渗透。

  • 图 6a 显示了低对比度图像及其二值化图像。当文本对比度较低时,当前的二值化方法无法正确恢复文本。图 6b 显示了另一个图像中存在渗色的示例。 如你所见,该方法无法完全去除渗色。图 6c 显示了 RGB 图像及其二值化图像的示例。如你所见,该方法在橙色文本上表现不佳。因此,为了解决这些问题,我们需要开发一种能够考虑到这些问题的方法。

    • 在这里插入图片描述

    • (a)低对比度问题。低对比度文本无法恢复。

    • 在这里插入图片描述

    • (b)渗透问题。渗透文本无法有效去除。

OCR performance evaluation

  • 文档图像增强的主要目的之一是增强字符识别方法或 OCR,以促进自动文档分析。目前还没有包含提取的基本事实文本的文档图像测试数据集,因此可以利用该数据集来评估文档图像增强方法在 OCR 改进方面的效果。 当前的方法要么忽略了在 OCR 方面评估其方法,要么仅在少数图像上显示 OCR 改进,这不足以证明其方法在实际中的实用性。这需要进行单独的研究来收集此类数据集,并根据该测试数据集对当前方法进行基准测试。

Conclusion

  • 在本文中,我们回顾了基于深度学习的六种文档图像增强任务的方法,包括二值化、去模糊、去噪、去淡化、去除水印和去除阴影。我们还总结了用于这些任务的数据集以及用于评估这些方法性能的指标。我们讨论了基于深度学习的文档图像增强方法的特点、挑战、优点和缺点。

  • 我们还讨论了该领域的未解决的问题,并确定了多个很少或根本没有受到关注的重要任务。这些任务是过度曝光/曝光不足校正、褪色和超分辨率。过度曝光问题通常发生在成像设备由于反射而捕获过多光线或眩光时,而曝光不足则发生在照明条件较差且捕获的图像变暗且难以阅读时。褪色可能是由于阳光、老化和褪色等原因造成的。低分辨率文档图像需要超分辨率来增强其视觉质量,更重要的是使小文本更清晰。当文档图像中存在噪声和伪影时,增强文档图像分辨率更具挑战性。这样的图像通常难以阅读,低可读性会影响字符识别技术的性能。上述任务很少受到关注,而且它们还远未得到解决。

  • 过去几年,二值化任务备受关注,然而,这些方法在多种情况下表现不佳。例如,当图像对比度低或存在多个伪像(例如印章、签名、重影或渗透)时。当可以看到文档另一侧的文本或墨水渗入文档另一侧时,就会发生重影和渗透。这些伪像很难去除,需要有效的方法来妥善处理和解决这些问题。

  • 当前的文档图像增强方法主要侧重于提高图像的视觉质量。虽然这是一个重要的方面,但这些方法在自动文档分析问题(例如字符识别)中的性能却被大大忽略。因此,开发能够同时提高视觉质量和 OCR 性能的方法的需求日益增加。OCR 性能需要在更大的测试数据集上进行评估,而不是像文献中那样只在几个样本上进行评估。

  • 尽管如此,当前的方法每次只针对一个问题,例如去模糊,但实际上文档图像可能同时存在多个问题。例如,文档图像可能模糊、褪色且有噪声。据我们所知,目前还没有方法可以同时解决单个图像中的多个问题

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Introduction Gas metal arc welding (GMAW), also known as metal inert gas (MIG) welding, is a widely used industrial process that involves the transfer of metal droplets from a consumable electrode wire to a workpiece through a welding arc. In this process, the welding operator controls various welding parameters, such as welding current, voltage, wire feed speed, and electrode polarity, to achieve the desired weld bead geometry and properties. The metal transfer mechanism plays a critical role in determining the weld quality and productivity in GMAW. Therefore, there has been significant interest in developing automated methods for analyzing the metal transfer images and extracting useful information about the process. In recent years, deep learning has emerged as a powerful technique for analyzing and processing images. Convolutional neural networks (CNNs) are a type of deep learning model that can learn features from images in an end-to-end manner, without requiring explicit feature engineering. In this paper, we present a deep-learning based approach for analyzing metal transfer images in GMAW. We first discuss the dataset used in this study, followed by a detailed description of the proposed method. We then present the experimental results and discuss the implications of our findings. Dataset The metal transfer images were captured using a high-speed camera at a frame rate of 20,000 frames per second. The camera was positioned perpendicular to the welding direction and had a resolution of 1280 × 1024 pixels. The images were captured during the welding of mild steel plates using a GMAW process with a 1.2 mm diameter wire. The welding current, voltage, and wire feed speed were varied to obtain a range of metal transfer modes, including short-circuiting, globular, and spray transfer modes. The dataset consists of 10,000 metal transfer images, with each image labeled with the corresponding metal transfer mode. Proposed method The proposed method for analyzing metal transfer images in GMAW consists of the following steps: 1. Image preprocessing: The metal transfer images are preprocessed to remove any noise and artifacts. A Gaussian filter is applied to smooth the images, followed by a contrast enhancement step using histogram equalization. 2. Feature extraction: A CNN is used to extract features from the preprocessed images. The CNN architecture used in this study is based on the VGG-16 model, which has shown excellent performance in image classification tasks. The VGG-16 model consists of 13 convolutional layers and 3 fully connected layers. The output of the last convolutional layer is used as the feature vector for each image. 3. Classification: The feature vectors extracted from the metal transfer images are used to train a multiclass classification model. In this study, we used a support vector machine (SVM) classifier with a radial basis function (RBF) kernel. The SVM classifier was trained on 80% of the dataset and tested on the remaining 20%. Experimental results The proposed method was evaluated on the dataset of 10,000 metal transfer images. The classification accuracy achieved by the SVM classifier was 96.7%, indicating that the method can accurately classify the metal transfer modes in GMAW. To further validate the performance of the method, we compared it with two other classification models: a decision tree classifier and a random forest classifier. The decision tree classifier achieved an accuracy of 85.2%, while the random forest classifier achieved an accuracy of 94.5%. These results demonstrate that the proposed method outperforms these traditional machine learning models. To further analyze the performance of the method, we conducted a sensitivity analysis by varying the number of convolutional layers in the CNN. We found that the performance of the method improved with increasing number of convolutional layers, up to a certain point, after which there was no significant improvement
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值