CLEval: Character-Level Evaluation for Text Detection and Recognition Task 论文阅读

这篇论文提出了CLEval,一种针对字符级别的端到端文本检测与识别评估方法,旨在解决现有评估方法的不足。CLEval通过实例匹配和字符级打分策略,考虑了细粒度和正确性,无需字符级标注,适用于检测、识别及端到端任务的评估。实验表明,CLEval提供了更准确和细致的评估结果。

本论文发表于CVPR2020,提出了一种针对字符级别的任意形状文本的端到端检测与识别的评估方法。
下载链接:https://arxiv.org/abs/2006.06244

1.动机

  1. 尽管目前在文本检测、文本识别和端到端检测的方法进步显著,但现有的评估方法并不够公正可靠。
  2. 在对端到端的OCR任务进行评估时,缺乏对字符级信息的利用。
  3. 之前的端到端的评估方法,在检测和识别阶段都采用了01一刀切的评判,从而造成了定性分析与定量分析之间的gap,并影响了对模型的细化评估。如下图(红色为GT,蓝色为检测结果): 红色为GT,蓝色为检测结果

由此,该论文提出了一种针对字符级别信息的评估方式,这种方式是对独立的文本检测、文本识别和端到端的文本发掘的细化评估,并能够处理一对一、一对多、多对一匹配。

2.主要思想

文本是由单词组成,单词可以被细分为字符的序列,因此其本身具备两种特征:1.序列信息 2.具体内容信息。

文本检测的目标可以理解为找到一块区域,该区域包含了一组正确的序列与字符信息。那么该怎么来表示一个文本检测实例中的正确的序列与字符位置的程度呢?可以使用“细粒度”和“正确性”。

细粒度表示的是检测结果刚好与真实单词匹配,而不将其割裂为不同的几个部分。因此对于合成或者割裂的检测实例需加以惩罚。

正确性表示的是文本与检测的匹配程度,在检测结果中,理想情况是每个字符被且仅被检测到一次。当字符位置未被检出或多次检出时,需要对其加以惩罚。

下图表示了这两个定义对检测的影响,(a-b)代表细粒度,(c-d)代表正确性:
在这里插入图片描述
注意:为了实现字符级的评估,通常需要字符级的标注,但很多数据集却没有这种标注,因此CLEval的方法不要求字符级的标注,而是在评估时进行字符位置的估计。CLEval一般用于端到端的检测与识别任务中,但也可以用于单独的检测或识别任务中。假如需要将其用在检测任务中,需要假设gt中的字符是均匀的分布且各字符具有相同的长宽比,从而计算gt中各字符的中心位置,从而确定gt与det的匹配关系。

为了解决细粒度和正确性两个问题,CLEval包含了两个过程:

  1. 实例匹配过程:针对细粒度问题,将所有可能的gt和det做匹配,这里的匹配要求gt和det起码包含一个以上的共享字符。
  2. 字符级打分过程:针对正确性问题,计算gt与识别结果的最长公共子序列。

3.已有的相关方法

检测评估方法

DetEval 通过允许单包围框的多匹配关系(一对一、一对多、多对一),解决了细粒度的问题。DetEval方法对于面积召回率和精准率设置了阈值,这种基于面积阈值的方法不仅导致了正确性问题,并影响在端到端任务的使用。

TIoU 评估基于gt与det的占比,对评估结果加以惩罚。TIoU倾向于给与gt相似的检测结果以高得分。主要缺陷在于,它对与gt有轻微区别的det以惩罚,即便他们的识别结果相同。

TedEval 是一个字符级的文本检测评估方法,减轻了定性上的分歧。CLEval正是从该方法中借鉴了“伪字符”的想法。

识别评估方法

**Correctly Recognized Words (CRW) ** 是一种二值的打分标准,它判断识别结果是否与真实单词完全一致。这种方法无法区分完全错误的识别结果和几乎相同的识别结果。

edit distance 编辑距离是一种衡量两个字符串的相似关系的通用方法,本质是将一个字符串转化为另一个字符串的最少操作步数(在Levenshtein距离计算中,包含插入、删除和替换)。编辑距离是一种合理的识别评估方法,因为该分数能反映模型的识别效果。最长公共子序列是编辑距离的一个特例,该方法只采用了插入和删除操作。

端到端评估方法

IoU 和CRW是一种严格的级联的评估方法。检测阶段将与gt交并比小于阈值的det去除,得到det与gt的匹配关系再利用CRW方法计算识别的得分。这种方法由于采用了二值的得分,无法实现细粒度的评估。

PopEval充分利用了识别结果,但是不提供检测评估。

4.方法

IoU+CRW与CLEval评估结果对比,见下图。图中对“RIVERSIDE”的检测展示了细粒度的问题,对“WALK”的识别体现了正确性问题。可以看出CLEval法成功地量化了不同的端到端结果。下面将主要陈述CLEval中的两个主要部分:实例匹配和打分。
在这里插入图片描述

4.1. 检测:实例匹配过程

实例的匹配有两个基础原则:

  1. det与gt的公共区域,至少包含一个伪字符中心(Pseudo-Character Center, PCC).
  2. det与gt的公共区域应该足够大。

因此本节将具体介绍PCC和具体的匹配策略。

4.1.1.伪字符中心(Pseudo-Character Center, PCC)

我们需要首先知道每个字符的中心,才能知道该位置是否被检测区域所包含。然鹅大多数数据集并不提供字符级的标注内容,因此CLEval利用gt的框和文本信息,生成了伪字符中心(Pseudo-Character Center, PCC)。基于“ 字符在文本框中均匀分布 ”的假设,可以由下述方法产生PCC。

G = G 1 , G 2 , . . . , G I G = {G_1,G_2,...,G_I} G=G1,G2,...,GI表示一系列的真实框, D = D 1 , . . . , D J D = {D_1,...,D_J} D=D1,...,DJ表示一系列的检测框,其中I和J代表真实框和检测框的数目。每个真实框 G i G_i Gi包含 l i G l_i^G liG个字符。则 G i G_i Gi的第k个PCC可计算为:

c i k = ( 2 k − 1 2 l i G ) p i l e f t + ( 1 − 2 k − 1 2 l i G ) p i r i g h t c_{i}^{k} = (\frac{2k-1}{2l_i^{G}}) p_i^{left}+ (1- \frac{2k-1}{2l_i^G})p_i^{right} cik=(2liG2k1)pileft+(1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值