前言:
项目的主要内容是对于随机字符串进行识别,随机字符串来源于电子文件,而非照片,环境字符。并且电子文件中的字符来自一种特殊字库,所以麻烦就在于如何将这种特殊字库的字体进行识别达到99%左右的正确率?
一开始的思路:
经过调研,主要的ocr识别分为光学直接识别的tesseract,和加入了神经网络的算法(densenet\crnn)。
虽然说tesseract加了lstm增强了语义方面的识别,但是从1995年ray Smith开始在hp研发tesseract,这个算法就是针对光学方法识别,这个lstm也只是点缀。那么神经网络算法就主要是能够在检测行列定位方面更加精确,在前后文上能把握更多。
Tesseract:
由于是无序字符,随机生成,所以采用对前后文有优势的神将网络就没意义了,甚至会比较差。所以项目定位就是采用tesseract。
由于我们的字库是特殊字库,那么只能自己制作,如果采用标准英文字库,准确率惨不忍睹。
训练参考这个网址: