前言
这篇文章是CVPR 2019的一篇文章,做的是文本检测,主要是从文本显著图入手的,作者创新性地构建了一个专用于character检测的网络,我觉得这才更符合于目标检测这一类的概念,一个character就是一个目标,而不是一个word,因为所有的word都是有character构成的,下面具体来看一下文章中的想法。
论文地址:https://arxiv.org/pdf/1904.01941.pdf
核心思想
1.提出单字分割以及单字间分割的方法,更符合目标检测这一核心概念,不是把文本框当做目标,这样使用小感受野也能预测大文本和长文本,只需要关注字符级别的内容而不需要关注整个文本实例
2.提出如何利用现有文本检测数据集合成数据得到真实数据的单字标注的弱监督方法
整体结构
上图是这个方法的整体框架,其实主要就是一个基于VGG16骨干网的FCN网络,文章的解码器采用了U-Net的方法,在stage 4后再接几个卷积层便可以得到分割图像了,这里输出分为两个通道region score和affinity score,分别为单字符中心区域的概率和相邻字符区域中心的概率,得到原图大小1/2的预测图。