源码:https://github.com/argman/EAST
论文地址:EAST论文地址
论文题目:EAST: An Efficient and Accurate Scene Text Detector
传统的文本检测方法和一些基于深度学习的文本检测方法,大多是multi-stage,在训练时需要对多个stage调优,这势必会影响最终的模型效果,而且非常耗时.针对上述存在的问题,本文提出了端到端的文本检测方法,消除中间多个stage(如候选区域聚合,文本分词,后处理等),直接预测文本行.
下图给的是几个不同框架的检测pipeline:可以发现本文只包含两个stage
论文关键思想
提出了基于two-stage的文本检测方法:全卷积网络(FCN)和非极大值抑制(NMS),消除中间过程冗余,减少检测时间。
该方法即可以检测单词级别,又可以检测文本行级别.检测的形状可以为任意形状的四边形:即可以是旋转矩形(下图中绿色的框),也可以是普通四边形(下图中蓝色的框))。(我是用的是绿色的框)
采用了Locality-Aware NM