2020.9.9
Pyramid Mask Text Detector
作者分析了先前以Mask-RCNN为基础的方法存在的问题,并在此基础上提出了改进办法并设计了PMTD。
问题分析
1.多数文本检测数据集采用矩形框坐标的形式标注文本所在位置,与Mask-RCNN中使用Mask来区分前后景区域的思想相悖。使用矩形标签训练并不能凸显Mask-RCNN的优势;
2.根据矩形坐标标签虽然也可以生成像素级的分割标签以用于训练Mask-RCNN类方法,但其中存在大量的假真区域,由于标签形状的限制,图中存在大量的非字符区域也被划分到了正样本集合中,而导致的结果必然是准确率降低;
3.Mask-RCNN使用的hard mask硬分割,导致文本区域检测不全,文本检测与目标检测的目的不同,目标检测的结果若与实际存在些许偏差,或许并不会影响下一步的分类或其他工作,但文本检测的误差会直接导致后续文本识别信息缺失。通俗的说,好比通过一个人的全身像和半身像,都可以对这个人的身份进行辨识,但是一句话缺了一半,我们很难判断其所表达的意思。
解决方法
-
采用金字塔式的Label:根据给定的矩形框坐标,确定矩形框中心点O,并设O点值为1。使用线性插值法对分割标签赋值,取值与其距O点距离成反比。
假设A、B、C、D为标签边界框四顶点,则根据四点坐标可得文本区域中心点O,设O点值为1,假设一点P位于 Δ O D C \Delta ODC ΔODC区域内,则向量 O P → \overrightarrow{OP} OP