本文重点
上一节课程中我们讲解到了照片的OCR的流水线,以及工作原理,本视频我们讲解照片OCR流水线中的组件是如何工作的,本节课程我们将学习一种滑动窗的分类器。
第一步--定位图片中的文字区域
首先我们需要先收集一些带标签的训练集,正样本就是图像中有文字的那些图片,而负样本表示没有文字的图片,那么我们就可以使用这样的训练集来训练模型,训练完成之后,只要输入给模型一张图片,模型就可以识别出来这张图片是否带有文字。
下面我们使用一个固定的比例滑动窗(红色方块)来滑动图片,然后把截取的图片放到模型中,我们就可以检测出这一局部的区域中是否有文字
当窗口从左上角滑动到右下角的时候,那么最终我们可以得到这样的结果:
上图中白色的区域表示我们的文字检测系统已经检测到了文字&