原文连接:MSR: Multi-Scale Shape Regression for Scene Text Detection
角度
针对现有的回归方形文本框的方式,作者提出了一种回归密集的边框点的形式,在可以生成匹配任意文本的同时,通过高级任务来增加网络提取特征的能力(个人认为)。考虑到多尺度的问题,作者提出了一种适合于多尺度的网络结构。
算法流程
图片被处理为图片金字塔后一起输入网络,得到三个不同的输出,第一个输出是central text region, 为文本区域的中心区域,然后结合这个中心区域,从第二个输出中取出中心区域的点到最近的边缘的横向距离x,从第三个输出取出中心区域的点到最近的边缘的纵向距离,综合点和坐标这两个距离,就能得到一组密集的边框点,将它们连起来,就是目标的边框。其中,central text region是只取了整个文本区域的中心部分,不但有找到点来推测边框的作用,还有分割好容易混叠的文本的作用。