CLEval: Character-Level Evaluation for Text Detection and Recognition Task 论文阅读

最新推荐文章于 2024-12-29 09:38:36 发布

原创

最新推荐文章于 2024-12-29 09:38:36 发布 · 732 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

这篇论文提出了CLEval，一种针对字符级别的端到端文本检测与识别评估方法，旨在解决现有评估方法的不足。CLEval通过实例匹配和字符级打分策略，考虑了细粒度和正确性，无需字符级标注，适用于检测、识别及端到端任务的评估。实验表明，CLEval提供了更准确和细致的评估结果。

CLEval: Character-Level Evaluation for Text Detection and Recognition Task 论文阅读

1.动机
2.主要思想
3.已有的相关方法
4.方法
5.实验结果

本论文发表于CVPR2020,提出了一种针对字符级别的任意形状文本的端到端检测与识别的评估方法。
下载链接：https://arxiv.org/abs/2006.06244

1.动机

尽管目前在文本检测、文本识别和端到端检测的方法进步显著，但现有的评估方法并不够公正可靠。
在对端到端的OCR任务进行评估时，缺乏对字符级信息的利用。
之前的端到端的评估方法，在检测和识别阶段都采用了01一刀切的评判，从而造成了定性分析与定量分析之间的gap，并影响了对模型的细化评估。如下图（红色为GT，蓝色为检测结果）：

由此，该论文提出了一种针对字符级别信息的评估方式，这种方式是对独立的文本检测、文本识别和端到端的文本发掘的细化评估，并能够处理一对一、一对多、多对一匹配。

2.主要思想

文本是由单词组成，单词可以被细分为字符的序列，因此其本身具备两种特征：1.序列信息 2.具体内容信息。

文本检测的目标可以理解为找到一块区域，该区域包含了一组正确的序列与字符信息。那么该怎么来表示一个文本检测实例中的正确的序列与字符位置的程度呢？可以使用“细粒度”和“正确性”。

细粒度表示的是检测结果刚好与真实单词匹配，而不将其割裂为不同的几个部分。因此对于合成或者割裂的检测实例需加以惩罚。

正确性表示的是文本与检测的匹配程度，在检测结果中，理想情况是每个字符被且仅被检测到一次。当字符位置未被检出或多次检出时，需要对其加以惩罚。

下图表示了这两个定义对检测的影响，（a-b）代表细粒度，（c-d）代表正确性：
在这里插入图片描述
注意：为了实现字符级的评估,通常需要字符级的标注，但很多数据集却没有这种标注，因此CLEval的方法不要求字符级的标注，而是在评估时进行字符位置的估计。CLEval一般用于端到端的检测与识别任务中，但也可以用于单独的检测或识别任务中。假如需要将其用在检测任务中，需要假设gt中的字符是均匀的分布且各字符具有相同的长宽比，从而计算gt中各字符的中心位置，从而确定gt与det的匹配关系。

为了解决细粒度和正确性两个问题，CLEval包含了两个过程：

实例匹配过程：针对细粒度问题，将所有可能的gt和det做匹配，这里的匹配要求gt和det起码包含一个以上的共享字符。
字符级打分过程：针对正确性问题，计算gt与识别结果的最长公共子序列。

3.已有的相关方法

检测评估方法

DetEval 通过允许单包围框的多匹配关系（一对一、一对多、多对一），解决了细粒度的问题。DetEval方法对于面积召回率和精准率设置了阈值，这种基于面积阈值的方法不仅导致了正确性问题，并影响在端到端任务的使用。

TIoU 评估基于gt与det的占比，对评估结果加以惩罚。TIoU倾向于给与gt相似的检测结果以高得分。主要缺陷在于，它对与gt有轻微区别的det以惩罚，即便他们的识别结果相同。

TedEval 是一个字符级的文本检测评估方法，减轻了定性上的分歧。CLEval正是从该方法中借鉴了“伪字符”的想法。

识别评估方法

**Correctly Recognized Words (CRW) ** 是一种二值的打分标准，它判断识别结果是否与真实单词完全一致。这种方法无法区分完全错误的识别结果和几乎相同的识别结果。

edit distance 编辑距离是一种衡量两个字符串的相似关系的通用方法，本质是将一个字符串转化为另一个字符串的最少操作步数（在Levenshtein距离计算中，包含插入、删除和替换）。编辑距离是一种合理的识别评估方法，因为该分数能反映模型的识别效果。最长公共子序列是编辑距离的一个特例，该方法只采用了插入和删除操作。