PaddleOCR是一个与OCR相关的开源项目,不仅支持超轻量级中文OCR预测模型,总模型仅8.6M(单模型支持中英文数字组合识别、竖排文本识别、长文本识别,其中检测模型DB(4.1M)+识别模型CRNN(4.5M)),而且提供多种文本检测训练算法(EAST、DB)和多种文本识别训练算法(Rosetta、CRNN、STAR-Net、RARE)。
Github地址
https://github.com/PaddlePaddle/PaddleOCRgithub.comRepo里面提供的"超轻量级中文OCR体验"文档,很容易搭建预测环境,测试效果。同时还提供了文本检测和文本识别的训练代码,方便使用自己的中文数据训练。下面给出一些repo提供的效果图,图中给出了识别结果置信度:
上图不是轻量级模型的结果,而是基于ICDAR2015英文数据集训练的检测+识别模型串联的结果。