简单理解
直观理解来说,很多时候,自然场景中文本的出现往往与自然场景中的物体有关,比如说,在广告牌上一定有文字。然后有一些物体上往往会更大概率出现为。文本和物体并不是相互独立的。而且这样利用物体的信息还有一点好处,会减少文本检测的误检率。比如说车轮子和英文字符o很像,但是我们可以知道在文字是不可能出现在车底下的,这就杜绝了错误是别的问题。
数据集
数据集是能够训一个好模型的关键。作者自己构建了一个用来训练的数据集。名字叫做NTU-UTOI。总共22,767,这些 images from ICDAR 2011 robust scene text, ICDAR 2015 incident scene text, KAIST scene text, MSRA-TD500, NEOCR(Natural Environment), SVT, USTB- SV1k ,(多方向多视角自然图像文本数据库) and Traffic Sign datasets , 和一些作者自己在网络上下载和收集到的图片。当然这里面是没有之后用来做测试的图片的。这个数据集在当时是非人造的第二大数据集。在这个数据集当中,文本和45种物体种类被标记出来。这些物体都是些在街头常见的物体,而且这些物体往往与文本的出现有着关联。
网络
在这片论文中,作者使用的backbone是faster RCNN,如下图所示: