论文:IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection
论文链接:https://arxiv.org/abs/1805.01167
这篇是IJCAI2018关于自然场景文字检测的文章,基于分割算法(FCIS)并针对自然场景下文字的特点设计网络。因为自然场景下的文字大小、宽高比、方向变化多样,所以这篇文章借鉴inception结构的思想进行改进,在inception结构中通过不同尺寸的卷积核设计达到检测不同大小和宽高比的文字,同时引入deformable卷积层操作和deformable PSROI pooling层提升任意方向文字的检测效果。
Figure1是IncepText网络结构的示意图,主网络采用ResNet50。首先,去掉了Res stage5降采样操作,目的是增加该部分输出特征图的分辨率,这种操作在分割算法中比较常见。其次为了提高小文本区域的检测效果,IncepText将深层特征和浅层做了融合,具体而言是Res stage5、Res stage4的特征分别和Res stage3的特征做融合,因为Res stage5修改成不改变输入特征维度,所以只需要将二者unsample成原来维度的两倍就可以做特征融合了。作者用deformable PSROI pooling替换原来的标准PSROI pooling,因为标准的PSROI pooling在处理非水平方向的文本检测时效果不佳。