一、文字检测方法:PSENet基本思想概述
PSENet是一种基于语义分割的文字检测方法。在此之前,文字检测主要面临两个挑战:1.基于anchor的方法不能检测出任意形状的文本。
2.基于语义分割的逐像素 检测方法无法区分距离很近的文本。
PSENet很好地解决了上述的两个问题,其基本思想是:
问题一:如何解决基于anchor的方法不能检测出任意形状的文本?问题分析:基于anchor的检测可以类比目标检测,如YOLO,在训练与推理的过程中目标的位置描述为为bounding box的中心坐标x,y还有宽高,w,h。如果文字为曲形,如下图所示,基于这种思想的检测方法就很难检测出文字的准确位置。基于anchor的检测结果
PSENet的解决方法其实很简单,要想检测出任意形状的文本位置,最好是能区分出图像中每个像素的属性,即,对每个像素进行分类。实际上就是使用语义分割。
问题二:基于语义分割的逐像素检测方法无法区分距离很近的文本,PSENet该如何规避?问题分析:当两行文本离得很近,上下两行文本之间的间隙很小,模型是比较难判断上下很近的文字是不是同一行。如下图所示:一般的语义分割检测结果
PSENet的解决方法是:我们的目的是为了区分两行距离很近的文字,核心在于两行离得很近的文本之间的间距很小,以至于模型无法检测出来。那么,能不能想办法来“放大”行之间的距离?PSENet的巧妙之处正在于此!PSENe