基于笔画的字符重建
Abstract
由于令人眼花缭乱的背景,不均匀的照明,低分辨率和不同的失真,对于来自真实场景的噪声字符图像或字符图像的背景消除仍然是具有挑战性的问题。本文提出了一种基于笔画的字符重建(SCR)方法,该方法使用加权二次贝塞尔曲线(WQBC)来表示字符的笔画。
Introduction
近年来,已经产生了许多基于DNN的字符识别模型。 由于大多数字符识别方法基于字符图像直接预测标签,因此不再考虑关于字符的结构信息。 如果我们想要提取图片的文本信息,消除图片的背景,或重建模糊的字符结构,那么只有分类信息是不够的。
自然图像的字符识别对机器来说仍然是一个具有挑战性的问题。 这是因为当字符图像具有令人眼花缭乱的背景,不均匀的照明,低分辨率和不同的扭曲时,机器很难提取足够的信息。 有关研究还表明,通过在字符图像中添加一些噪声会对手写数字识别产生很大的影响,这被称为对抗性攻击。增加对噪声鲁棒性的一种可能的方式是扩充数据集,即增加噪声数据作为数据集。但是这种方法成本很高,并且很难将所有可能的噪声送入识别器中进行训练。
从本质上讲,一个字符是由一系列笔画构成的。 该属性可用于设计更鲁棒的字符识别方法。我们可以先提取笔画并重建字符,然后再进行识别。
本文提出了一种基于笔画表示的编码器 - 解码器结构,它可以解构字符图像并将其编码成一些笔画的参数,然后将这些参数解码为图像。加权二次贝塞尔曲线(WQBC)用于模拟笔画,笔画由三个加权点控制。
本文预训练了一个神经网络作为解码器,可以根据WQBC的参数将WQBC嵌入到图像中。然后作者冻结了解码器并训练另一个神经网络作为端到端的笔画提取器,它可以与字符识别器集成。
提取的笔画可以以两种方式使用:
- 用来重建清晰的字符图像;
- 作为基于笔画序列的字符识别器的输入,输出识别的结果。
本文使用l2距离来度量重建字符和ground truth之间的监督损失。并且不将每个字符的笔划序列告诉解码器。
本文的主要贡献:
- 我们提出将字符编码为有意义的表示,以提高编码器解码器结构的重建能力和鲁棒性,并获得更好的重建效果;
- 我们训练了可微分曲线的参数解码器;
- 我们设计了一个(用于训练我们笔画提取器的)图像增强过程。我们的SCR方法可以处理各种图像噪声,并且可以在真实场景中很好地推广。 我们不使用SVHN的图像进行监督训练或转移训练,但也能实现 89 % 89% 89%的重建成功率;
- 我们用于自然字符图像的笔画提取器可以与字符识别相结合,以提高防御对抗性攻击的能力。简单点说就是可以防御对抗攻击,增加鲁棒性。
SCR
Problem Definition(问题的重述)
给定一个扭曲的字符图像 I d i s I_{dis} Idis,我们的目标是重建一个干净的字符图像 I r e c I_{rec}