OCR深度实践系列:
(一)图像预处理
(二)数据生成
(三)文本检测
最近在攻关法律领域的类案检索系统,这几天正好忙完了,得空继续写《OCR深度实践系列》这一专题的文章。前面三章依次介绍了图像预处理、数据生成以及文本检测三个模块,本章将介绍第四个关键模块:文本识别。
本文项目地址:https://github.com/Vincent131499/Chinese-OCR3/tree/master/text_recognize
经过文字检测之后我们就可以获得文字区域的位置,此时就可以借助各类文字识别算法来转译这些文字区域的内容。在以前的OCR任务中,识别过程分为两步:单字分割和分类任务,即:首先利用投影法将一连串文字切割出单个字体然后再送入CNN里面进行文字分类。而现在流行的基于深度学习的端到端文字识别方法不需要文字切割这个环节,它将文字识别转换成序列学习问题,虽然输入图像尺度和文本长度不同,但经过特征网络处理后就可以对整个文本图像进行识别(文字切割融入到深度学习中)。
近年来随着深度学习的迅猛发展,针对场景文字识别(Scene Text Recognition,STR)逐渐形成两种主流方法:一种是基于CTC的方法,典型代表是CRNN,即CRNN-OCR;另一