简单概括:
FOTS是一个快速的端对端的文字检测与识别框架,通过共享训练特征、互补监督的方法减少了特征提取所需的时间,从而加快了整体的速度。其整体结构如图所示:
卷积共享:从输入图象中提取特征,并将底层和高层的特征进行融合;
文本检测:通过转化共享特征,输出每像素的文本预测;
ROIRotate:将有角度的文本块,通过仿射变换转化为正常的轴对齐的本文块;
文本识别:使用ROIRotate转换的区域特征来得到文本标签。
FOTS是一个将检测和识别集成化的框架,具有速度快、精度高、支持多角度等优点,减少了其他模型带来的文本遗漏、误识别等问题。
参考:
1.论文:Fots: Fast oriented text spotting with a unified network [C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.