目录
一、使用Pycharm
首先建议大家下载Pycharm软件来运行下载到本地的PaddleOCR代码
https://www.jetbrains.com/zh-cn/pycharm/
一、环境配置
如图:配置一下你安装的虚拟环境
缺什么包去指定位置下载一下就OK
比如:我想安装个PaddleLabel
等待它自己安装完成就OK,比起手动install方便很多!
二、数据准备
metal_images:这是用来测试和训练的数据集
如图:
pretranin_models :根据自己的需要修改的预训练模型
继续修改
修改文件代码
C:\Users\PaddleOCR\tools\infer\utility.py
根据自己的需求,做出修改如下:
初步判断:我要识别的字体更接近于 telugu.ttf
大胆的替换一下:font_path="./doc/fonts/telugu.ttf"
二、PaddleLabel
在终端输入:
PPOCRLabel --lang ch
如果环境配置正确就会弹出PaddleLabel界面
引入准备好的数据集文件
选择自动标注:
标注完成
手动修改错误值并保存,这个过程有点繁琐,需要一些耐心
导出识别和标结果
下载需要的训练模型:我需要的轻量英文识别模型
放到pretrain_models
三、准备训练文字检测模型
新建train_data,把刚才生成的图片集放里
在终端 或者虚拟环境下:
输入训练命令:python tools/train.py -c configs/det/ch_ppocr_v2.0/ch_det_res18_db_v2.0.yml
出现问题
报错一:
解决方法:
pip install numpy==1.23 -i https://pypi.tuna.tsinghua.edu.cn/simple
少啥就装啥 把 -i https://pypi.tuna.tsinghua.edu.cn/simple 加上
报错二:
解决方法:
进入PPOCRLabel文件目录下的PPOCRLabel.py文件中,添加
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
看一下结果
输入可视化命令:
visualdl --logdir "./output/ch_db_res18"
打开浏览器,输入http://localhost:8040/
设置了60次的训练
模型导出:
python tools/export_model.py -c configs/det/ch_ppocr_v2.0/ch_det_res18_db_v2.0.yml -o Global.pretrained_model=./output/ch_db_res18/latest Global.save_inference_dir=./inference/det_db
测试一下结果:
python tools/infer_det.py -c configs/det/ch_ppocr_v2.0/ch_det_res18_db_v2.0.yml -o Global.pretrained_model=output/ch_db_res18/latest.pdparams Global.infer_img="C:\Users\Administrator\PaddleOCR\doc\imgs\c1.jpg"
如果想测试一下多张图片,图片路径换一下就可以
python tools/infer_det.py -c configs/det/ch_ppocr_v2.0/ch_det_res18_db_v2.0.yml -o Global.pretrained_model=output/ch_db_res18/latest.pdparams Global.infer_img="C:\Users\Administrator\PaddleOCR\doc\imgs"
检测的模型告一段落!
四、训练识别模型
修改以下配置文件
开始训练:
python tools/train.py -c configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml
等待中。。。。。。loss的值一直在降低
测试图片:
测试命令:
python tools/infer_rec.py -c configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml -o Global.checkpoints=./output/v3_en_mobile/latest Global.infer_img="C:\Users\Administrator\PaddleOCR\metal_images\image_rec\train\c10_crop_2.jpg"
测试结果:当 acc: 0.250000 27个字符中有两个没识别出来
即将完成,给自己鼓掌