What Is Wrong With Scene Text Recognition Model Comparisions阅读笔记

本文链接：https://blog.csdn.net/qq_40874603/article/details/107643988

本文分析了场景文本识别（STR）领域的数据集不一致性问题，导致模型性能无法公平比较。提出统一的4阶段STR架构，包括变形、特征提取、序列建模和预测阶段，并通过实验证明模块对准确率、速度和内存需求的贡献。强调未来STR研究应明确训练集，以促进公平的性能评估。

摘要由CSDN通过智能技术生成

场景文本识别：由于训练数据集和评估数据集的选择不一致，整体和公平的比较在该领域出现了很大的缺失。
三个贡献：（1）检查了不一致的训练和评估数据集，以及不一致导致的性能茶橘。（2）提出了一种统一的4阶段STR架构，大多数STR模型可以放入。使用这个框架可以对以前提出的模块进行扩展评估，也可以发现以前没有研究过的模块组合。（3）从准确率，速度和内存需求分析模块对性能的贡献，在一个一致的训练级和评测级上。这样的分析清除了当前比较的障碍，了解现有模块的性能。我们的代码是公开可用的。
介绍：先前的方法提出了多阶段的通道，每一个通道是一个深层神经网络
应对特定的挑战。例如RCNN处理不同数量的字符，CTC辨别字符的数量。transformation模块将输入标准化为直的文本以减少下游模块处理弯曲文本的负担。
然而，很难评估一个新提出的模块是否或怎样提升当前的性能，由于一些论文提出了不同的评估和测试环境，使得报告的数字难以比较。我们观察到1）训练集2）测试在不同的方法之间存在偏差。例如，不同的工作使用不同的IC13数据集的子集作为评估集合，可能造成超过15%的评估差异，妨碍了不同模型之间性能的公平比较。
我们的论文通过以下主要贡献来解决这些问题。首先，我们分析了所有的训练数据和验证数据集在这些STR论文中共同使用的。揭露了STD数据集使用的不一致性和原因。例如，我们发现了7个漏掉的例子在IC03数据集上和158个漏掉的样例在IC13数据集上。我们对STR数据集上的工作进行了研究，表明不一致造成了不可以比较的结果，在Table1中。第二，我们提出了一个统一的架构用于STR，为现有方法提供一个公共的视角。明确地，我们将STR模型分成四个不同的连续阶段包括࿱