简介
PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力使用者训练出更好的模型,并应用落地。
近期更新
2020.5.30,模型预测、训练支持Windows系统,识别结果的显示进行了优化
2020.5.30,开源通用中文OCR模型
2020.5.30,提供超轻量级中文OCR在线体验
特性
超轻量级中文OCR,总模型仅8.6M
单模型支持中英文数字组合识别、竖排文本识别、长文本识别
检测模型DB(4.1M)+识别模型CRNN(4.5M)
多种文本检测训练算法,EAST、DB
多种文本识别训练算法,Rosetta、CRNN、STAR-Net、RARE
支持的中文模型列表:
模型名称
模型简介
检测模型地址
识别模型地址
chinese_db_crnn_mobile
超轻量级中文OCR模型
chinese_db_crnn_server
通用中文OCR模型
也可以按如下教程快速体验超轻量级中文OCR和通用中文OCR模型。
超轻量级中文OCR以及通用中文OCR体验
上图是超轻量级中文OCR模型效果展示,更多效果图请见文末超轻量级中文OCR效果展示和通用中文OCR效果展示。
1.环境配置
请先参考快速安装配置PaddleOCR运行环境。
2.inference模型下载
(1)超轻量级中文OCR模型下载
mkdir inference && cd inference
# 下载超轻量级中文OCR模型的检测模型并解压
wget https://paddleocr.bj.bcebos.com/ch_models/ch_det_mv3_db_infer.tar && tar xf ch_det_mv3_db_infer.tar
# 下载超轻量级中文OCR模型的识别模型并解压
wget https://paddleocr.bj.bcebos.com/ch_models/ch_rec_mv3_crnn_infer.tar && tar xf ch_rec_mv3_crnn_infer.tar
cd ..
(2)通用中文OCR模型下载
mkdir inference && cd inference
# 下载通用中文OCR模型的检测模型并解压
wget https://paddleocr.bj.bcebos.com/ch_models/ch_det_r50_vd_db_infer.tar && tar xf ch_det_r50_vd_db_infer.tar
# 下载通用中文OCR模型的识别模型并解压
wget https://paddleocr.bj.bcebos.com/ch_models/ch_rec_r34_vd_crnn_infer.tar && tar xf ch_rec_r34_vd_crnn_infer.tar
cd ..
3.单张图像或者图像集合预测
以下代码实现了文本检测、识别串联推理,在执行预测时,需要通过参数image_dir指定单张图像或者图像集合的路径、参数det_model_dir指定检测inference模型的路径和参数rec_model_dir指定识别inference模型的路径。可视化识别结果默认保存到 ./inference_results 文件夹里面。
# 设置PYTHONPATH环境变量