角度
该论文针对的是文本检测任务中类似于商品信息等图片具有密集且任意形状的文本框的问题。首先作者分析了现有的两个文本检测的大方向,第一个是自上而下的检测方法,这一类方法大多直接回归一个文本框或四边形来标注文本区域。这一类方法的好处是对于多方向的文本检测比较好,但是它很难处理好训练数据在长宽比上的不均匀的问题,导致了对横宽比比较奇异的文本检测能力差,同时,因为回归一整个框的缘故,对于奇异形状文本的检测也比较弱。另一类方法是自下而上的检测方法,这一类方法可以分为两种,一种是如同PSENet一样回归pixel级别的结果后聚合成文本块,另一种是如同本文一样回归一些文本块,后通过连线等成为大的文本框。这类方法对与奇异形状的文本有较好的表现,但是对于密集的文本容易混淆,同时,后处理用时严重,基于此,作者提出一个基于从下到上的,可以在密集文本中区分不同文本块的Instance-aware Component Grouping方法。
思想
作者在原先的SegLink的基础上增加了两种线,一种是attractive link,一种是repulsive link,这两种线,一种是将属于同个文本区域的seg相连,一种是将属于不同文本区域的seg相拒。特别的,作者还提出了一种instance-aware loss,将后处理加入到优化中
Seglink的思想是用SSD来做文本块的检测,而且不是一次检测一整个文本框,而是文本框的一部分
细节
1. 网络的流程
网络生成文本块&attractive link和repulsive link–>用modified mini