原文链接: Geometry Normalization Networks for Accurate Scene Text Detection
思想:
这篇论文的角度是CNN模型对于文本检测的框的geometry variance的覆盖范围是有限的(用有限的variance来训练得到的检测器结果最好),首先验证,后提出通过新增几个不同的branch(Scale Normalization Unit和Orientation Normalization Unit的组合)来构成不同的检测器,因为每个子检测器都有自己的variance,组合起来就是large geometry variance,就能覆盖好很多框.同时,为了这个独特的设计,作者还改变了图片输入的方式,保证每个branch都得到充足的训练.
问题的提出:
前提: 通过(a)中橙色线的分布,可以看出,icdar15的框多为水平框(angle呈均值为0,方差较小的正态分布).作者想出了,如果增大angle variance的范围的话,可以通过算法的表现来观看算法对geometry variance的覆盖能力.
作法: 作者通过随机旋转样本的方式扩大了icdar15的框的geometry variance,后做了训练集和测试集是否有扩大geometry variance的消融实验,得到了,即便是训练集为large geometry variance,训练得到的模型在large geometry varian