SSD是大家常见的目标检测器,在类似COCO的日常生活类物体检测,或者人脸、行人检测上都有应用,不过是否可以用于文本领域的检测呢?
今天跟大家介绍一篇新出的论文 ScanSSD: Scanning Single Shot Detector for Mathematical Formulas in PDF Document Images,美国罗彻斯特理工学院提出一种扫描式SSD(ScanSSD),仅使用视觉特征,而不使用任何文本的版面信息,进行数学公式检测。
ScanSSD训练时文档图像大小为512 * 512,在给定600 dpi的文档页图像上,SSD检测器以多尺度滑动窗口的方式定位公式,然后把检测结果合并,得到最终的整个页面的公式。
常见的学术文献中数学公式示例:
可见,既有独占一行的公式(红色区域),也有嵌入进文本的公式(蓝色区域)
在实验中,作者使用了 TFD-I