SynthTIGER——面向更好的文本识别模型的文本图像生成器

最新推荐文章于 2024-04-26 09:41:20 发布

CV小蜗牛

最新推荐文章于 2024-04-26 09:41:20 发布

阅读量910

点赞数

分类专栏：文本识别文章标签： r语言计算机视觉深度学习

原文链接：https://mp.weixin.qq.com/s/ZV3lHqM1xNpQYWtqVdU4Qw

版权

文本识别专栏收录该内容

4 篇文章 1 订阅

订阅专栏

论文名称：SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text Recognition Models
论文地址：https://arxiv.org/abs/2107.09313
开源代码：https://github.com/clovaai/synthtiger
开源数据：https://github.com/clovaai/synthtiger#datasets

一、简介

该论文提出了一种新的文本图片合成方法——SynthTIGER。该合成方法在单一算法框架下整合了有效的合成技术。同时，该论文还提出了两种算法分别解决文本长度上的长尾问题和训练集中的字符分布问题。通过实验，作者验证了SynthTIGER相较于先前的文本图片合成方法，在场景文本识别任务中表现更好。

二、研究背景

在深度学习时代，通过使用大量文本图片进行训练，OCR模型获得了显著的性能提升。通过算法合成文本图片，能够在短时间内得到大量的训练数据。而获取同等数量的真实文本图片则需要花费大量的成本进行采集和标注。

该论文提出的文本图片合成方法是用于场景文本识别任务中的。场景文本识别任务的训练数据是包含若干个字符的文本行图像，该任务要求合成数据覆盖在现实世界中可能存在的各种样式和文本内容。

在先前的合成方法中比较经典的是MJ[1]和ST[2]（这两种方法与SynthTIGER合成图片的对比如图1所示）。MJ是典型的文本行合成方法，在合成时不会像从场景图中直接裁切下来的文本行图片那样可能会引入额外的文本噪声。而ST可以合成包含多个文本行于一张图的场景文本图片，其裁切下来的文本行可能会引入来自于其他文本行的文本噪声。但是，由于ST需要选择特定的区域放置文本，因此文本的样式（如文本的大小）可能会受到限制。
在这里插入图片描述
该论文提出的SynthTIGER结合了MJ和ST的优势，在引入了文本噪声的同时文本的样式不再受到限制。使用SynthTIGER合成的数据训练识别器时，识别器的性能要比使用MJ或ST合成的数据训练的要好，同时性能也与MJ和ST合成数据联合训练处于同一水平。

该论文也提出了两种方法来缓解字符频率和文本长度在数据中出现偏斜分布的问题。

三、算法详解

在这里插入图片描述
SynthTIGER的渲染步骤如图2所示，下文将会对每个步骤进行介绍。

（a）文本形状选择：从字体库随机选择字体后，该步骤生成的文本排布方式分为两种：一种是字符从左到右排布，一种是抛物线曲线排布。

（b）文本样式选择：在字体颜色选择上，作者参考ST的方法，使用K-means聚类从真实文本行图片中收集文本颜色和背景颜色的搭配，作为选择文本颜色的依据。考虑到真实场景中的文本颜色并不是单一的，SynthTIGER还选择纹理填充文本。同时，文本的边框和阴影作者也有所考虑。

（c）变换：SynthTIGER主要提供了拉伸、梯形、倾斜和旋转四种变换方式，并随机选择文本距离边界的距离。

（d）融合：在融合阶段，算法需要得到前景文本、干扰文本和背景。前景文本和干扰文本通过前面的步骤生成，而背景生成是通过选择从颜色库和纹理库中随机选择颜色和纹理得到的。融合时，首先由背景和干扰文本融合得到新的背景，再将前景文本和新的背景融合。融合方法有正常、乘法、加网、叠加、强光、柔光、减淡、除法、加法、差值、仅变暗和仅变亮等。SynthTIGER还通过Flood-Fill算法来剔除掉文本和背景混淆的图片。

（e）后处理：SynthTIGER的后处理方法包括高斯噪声、高斯模糊、尺寸调整、中值模糊和JPEG压缩等。

SynthTIGER还提供了两种额外的策略来控制合成数据集的文本长度分布和字符分布。

文本长度分布控制策略是通过给定文本长度的分布，随机决定一个文本长度并随机采样一条文本。当文本长度超过预定时，截断文本；反之则重复采样文本拼接到原文本后面至长度大于等于预定长度，再进行截断。

字符分布控制策略通过给定字符出现概率的分布，随机决定一个字符，然后随机选择一个含有该字符的文本作为前景文本。

四、主要实验结果及可视化结果

1. SynthTIGER合成图片的可视化效果

在这里插入图片描述

2. 与其他合成方法比较

论文选用BEST[3]作为场景文本识别模型，并只使用合成的图片进行训练。结果如表1，2所示。其中表1中各个数据集的图片数量分别为（从上到下）8.9M、7M、15.9M和10M，表2中各个数据集具有相同的（字体、纹理、颜色、语料）来源，且数据集图片数量均为10M。
在这里插入图片描述
可以看到，SynthTIGER的表现要好于MJ和ST，和MJ+ST混合训练相当。

同时作者还尝试在两种不同类型的语言：拉丁类文字（字符类型较少）和日文（字符类型较多），并在场景识别和文档识别上进行比较，结果如表3所示。
在这里插入图片描述

3. 消融实验

作者通过减少SynthTIGER中的某些合成函数，比较减少这些模块后对场景文本识别性能的影响，证明了各个合成函数的有效性。实验结果如表4。
在这里插入图片描述

4. 文本长度分布控制策略和字符分布控制策略的效果

在这里插入图片描述
如图4(a)和图5(a)所示，在使用了文本长度分布控制策略和字符分布控制策略后，这两个分布的偏斜程度得到了一定的缓解。

五、总结和讨论

SynthTIGER与现有的合成数据集相比，在场景文本识别模型训练中取得了更好的表现，同时其合成函数的有效性也得到了验证。同时实验还表明该论文提出的文本长度分布控制策略和字符分布控制策略有助于学习更通用的场景文本识别模型。最后，作者通过提供开源合成引擎和新的合成数据集为OCR社区做出贡献。

六、参考文献

[1] Jaderberg M, Simonyan K, Vedaldi A, et al. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition[C]//Neural Information Processing Systems, 2014.
[2] Gupta A, Vedaldi A, Zisserman A. Synthetic Data for Text Localisation in Natural Images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2315-2324.
[3] Baek J, Kim G, Lee J, et al. What is Wrong with Scene Text Recognition Model Comparisons? Dataset and Model Analysis[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 4715-4723.

CV小蜗牛

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SynthTIGER——面向更好的文本识别模型的文本图像生成器

论文名称：SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text Recognition Models论文地址：https://arxiv.org/abs/2107.09313开源代码：https://github.com/clovaai/synthtiger开源数据：https://github.com/clovaai/synthtiger#datasets一、简介该论文提出了一种新的文本图片合成方法——SynthTIGER。
复制链接

扫一扫