OCR数据集生成利器—TextRecognitionDataGenerator

最新推荐文章于 2025-08-30 07:35:21 发布

原创

最新推荐文章于 2025-08-30 07:35:21 发布 · 1.3w 阅读

85 ·

CC 4.0 BY-SA版权

文章标签：

#ocr #数据集 #深度学习

本文介绍了通过开源项目TextRecognitionDataGenerator生成定制OCR数据集的方法，以解决特定场景下识别效果不佳的问题。通过合成法，利用已有字符随机组合并应用各种变换，生成接近真实场景的图片，适用于训练和测试模型。文中还详细解析了项目参数，并给出了针对卡证类识别的参数示例，以提高模型在特定场景的识别准确性。

本文主要介绍通过开源项目 TextRecognitionDataGenerator 生成定制OCR数据集，用于训练模型和测试模型效果，达到特定场景下识别的优化。

1、现有数据集的问题

在自然场景（如照片，视频）的文字OCR识别中，由于文字的字体和颜色不同，长短和布局不定，同时文字所处背景的复杂性，模型训练后在特定场景下的文字识别效果依赖于数据集是否覆盖类似风格的文字（训练-测试同分布假设）。

当前虽然有不少开放的大规模OCR数据集，比如牛津大学的 Synthetic Word Dataset 和 SynthText in the Wild Dataset，作为业界的标准数据集，两者大小均在100g以上，但是覆盖的场景仍然非常有限，比如训练集中不包含标点符号，很多字体没有覆盖，另外还有各大竞赛的数据集 IC13, IC15, IIIT, SVT. IIIT, SVT, IC03, IC13, IC15, SVTP 和 CUTE，也多是特定场景下的数据集。

在实际测试中发现，即使在这些大规模数据集（如 Synthetic Word Dataset ）达到非常高的测试精度，在特定场景下的识别精度仍然不理想（比如身份证文字的识别），原因可能有两点，当前的 crnn+ctc 或者 attention+ctc（目前识别模型就这两种）难以学习到较好泛化性能的权值，二是尽管数据集足够大，但是由于自然场景中文字的多样性，数据集很难覆盖到特定场景下的文字风格。

所以从数据集的角度考虑问题，针对特定场景生成相应的数据集是解决特定场景下识别问题的一个思路。