论文:Deep Direct regression for multi-oriented scene text detection
论文链接:https://arxiv.org/pdf/1703.08289.pdf
要解决的问题:
传统的object detection算法比如Faster-RCNN,SSD和YOLO可以应用在horizontal scene texts detection上,而且检测效果也不错,但是难以应用在multi-oriected scene text detection中。其原因主要是因为texts的大小,方向,横纵比等差异较大,本文采用直接回归的方式可以避免将proposal应用在multi-oriented texts带来的困难。
本文算法的结果在ICDAR2015数据集上的F-measure达到0.81。
不过目前还没有公开代码
算法概要:
输入图像大小320*320,经过卷积和降采样的堆叠,另外中间有三次feature融合的过程,类似Resnet的做法,每次融合完都要做反卷积,最后网络得到128*80*80的输出。这个输出一方面作为分类模块的输入,分类模块将会得到输出map,map上每个点代表score,map大小是(1*80*80);另一方面作为回归模块的输入,回归模块将会得到map,map上每个点代表回归出来的四边形框的四个点坐标的offset(8*80*80),可以简单理解为4个点坐标。最后用一个改进版本的NMS:Recalled NMS做精修,主要解决两个text相离很近时如何既能去除横跨这两个text的错误框,同时保留正确框。本文的一个特点是对ground truth的选取和传统做法不一样,采用和text center line距离在一定范围之内的像素点作为positive,围绕positive有一个过渡区域作为not care区域,再以外才是negative。另外对positive的短边尺寸还做了限制。本文的另一个特点就是直接回归生成预测结果,没有中间的proposal,这是和其它算法很大的不同。
算法详解:
作者在这篇文章给出了两个定义:Indirect Regression和Direct Regression。可以从fig1中看出差别。fig1.a是Indirect Regression,类似Faster-RCNN,SSD等算法都是这种方式,通过回归proposal和ground truth的offset来得到预测结果,黄色虚线表示回归过程。而fig1.b是Direct