ICDAR2013文本检测算法的衡量方法（二）Rectangle Matching与DetEval

最新推荐文章于 2022-04-30 20:11:01 发布

Daniel2333

最新推荐文章于 2022-04-30 20:11:01 发布

阅读量1.3w

点赞数 11

分类专栏： OCR ICDAR 文章标签： ICDAR OCR

本文链接：https://blog.csdn.net/weixin_35653315/article/details/71591596

版权

本文详细介绍了ICDAR2013文本检测任务的评价方法，包括Rectangle Matching和DetEval。DetEval考虑了一对一、一对多和多对一的匹配方式，而ICDAR2003仅考虑一对一匹配。通过计算recall矩阵和precision矩阵，结合匹配阈值tr和tp，评估检测算法的性能。此外，文中还讨论了不同匹配方式的处理和DetEval软件包的使用。

摘要由CSDN通过智能技术生成

这是第二部分，第一部分请点击 ICDAR2013文本检测算法的衡量方法（一）Evaluation Levels

主要内容：

Rectangle Matching，或者bbox matching
ICDAR2013 Foucsed Image 文本检测任务的evaluation方法

若无特别说明，接下来说的：

evaluation/衡量方法都是只针对text localization算法；
text detection 与 text localization 不作区分
bounding box, bbox, rectangle不作区分

Detection with bbox

上一篇已经讲过， evaluation方法有四个level：

pixel feature discriminace
pixel classification
detection at rectangle
target oriented

在文本检测领域， 3和4(end2end evaluation)是最常用的。

对以水平文本为主体的text detection任务以及general的object detection任务来说，用矩形框来表示检测结果是最方便最实用也是最广泛的方法。ICDAR2013就是如此。（但ICDAR2015不是）

evaluation问题描述

Evaluation问题的输入：

$D$ , 要衡量的检测算法输出的bbox集合.
$G$ , Ground Truth bbox集合.
$D_i, G_j$ 分别代表 $D, G$ 的一个元素
输出：对 $D$ 的质量评估。

目前为止，我所了解的evaluation方法（object detection和text detection）都有recall和precision的计算。得到这两个值后，object detection的evaluation会计算mAP，而text detection的evaluation则计算F-mean.

所以，对文本检测的evaluation来说，不同的方法的不同之处主要在于如何计算recall与precision，而recall与precision的计算关键在于如何决断两个bbox是否match。

Matching of two bboxes

判断两个bbox是否match是一个可以简化但并不是一个简单的问题。存在三种match方式，如下图所示：
这里写图片描述
实线框代表ground truth，虚线框代表检测算法的输出。

一对一的match，如（a）所示。
一对多的match，如（b）所示，ground truth 粒度大于detection 粒度时出现的情况。
多对一的match，如（c）所示，detection的粒度大于ground truth的粒度。
多对多的match，图中没有画出。
不同的evaluation方法的不同的根源就在于对这三种match的处理方式不同

Evaluation in ICDAR2003，只考虑一对一的match

只考虑一对一的match是最简洁最简单最粗暴的方式， ICDAR2003就采用了这种方式。
这里写图片描述
图中的公式（6）计算Recall与Precision，都用到了 $BestMatch$ 。
给定一个bbox $b$ , 例如 $G_i$ , 和一个bbox list (就是之前的set，注意，不是数学意义上的无序set) $B$ ，例如 $D$ ， $BestMatch$ 方法输出一个0到1之间的值，代表 $b$ 在 $B$ 的匹配得分。若 $B$ 中有与 $b$ 完全重合的bbox，则输出最大值1；若 $B$ 中的bbox与 $b$ 没有任何重合，则输出最小值0。