What Is Wrong With Scene Text Recognition Model Comparisions阅读笔记

本文分析了场景文本识别(STR)领域的数据集不一致性问题,导致模型性能无法公平比较。提出统一的4阶段STR架构,包括变形、特征提取、序列建模和预测阶段,并通过实验证明模块对准确率、速度和内存需求的贡献。强调未来STR研究应明确训练集,以促进公平的性能评估。
摘要由CSDN通过智能技术生成

场景文本识别:由于训练数据集和评估数据集的选择不一致,整体和公平的比较在该领域出现了很大的缺失。
三个贡献:(1)检查了不一致的训练和评估数据集,以及不一致导致的性能茶橘。(2)提出了一种统一的4阶段STR架构,大多数STR模型可以放入。使用这个框架可以对以前提出的模块进行扩展评估,也可以发现以前没有研究过的模块组合。(3)从准确率,速度和内存需求分析模块对性能的贡献,在一个一致的训练级和评测级上。这样的分析清除了当前比较的障碍,了解现有模块的性能。我们的代码是公开可用的。
介绍:先前的方法提出了多阶段的通道,每一个通道是一个深层神经网络
应对特定的挑战。例如RCNN处理不同数量的字符,CTC辨别字符的数量。transformation模块将输入标准化为直的文本以减少下游模块处理弯曲文本的负担。
然而,很难评估一个新提出的模块是否或怎样提升当前的性能,由于一些论文提出了不同的评估和测试环境,使得报告的数字难以比较。我们观察到1)训练集2)测试在不同的方法之间存在偏差。例如,不同的工作使用不同的IC13数据集的子集作为评估集合,可能造成超过15%的评估差异,妨碍了不同模型之间性能的公平比较。
我们的论文通过以下主要贡献来解决这些问题。首先,我们分析了所有的训练数据和验证数据集在这些STR论文中共同使用的。揭露了STD数据集使用的不一致性和原因。例如,我们发现了7个漏掉的例子在IC03数据集上和158个漏掉的样例在IC13数据集上。我们对STR数据集上的工作进行了研究,表明不一致造成了不可以比较的结果,在Table1中。第二,我们提出了一个统一的架构用于STR,为现有方法提供一个公共的视角。明确地,我们将STR模型分成四个不同的连续阶段包括࿱

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值