前言
在使用paddleOCR默认的推理模型,发现文本检测不能适用于全部场景,这时候就需要自行准备数据集进行标注、训练。正好看到paddle有开源的半自动化数据集标注工具。记录使用过程。
根据官方readme文档整理 PPOCRLabel readme
下载源代码
官方仓库直接下载:https://gitee.com/paddlepaddle/PaddleOCR/tree/release/2.7.1
解压后,使用IDE打开PPOCRLabel
文件夹
配置python环境
参考 PaddleOCR环境搭建并简单提取文字 配置运行环境
查看PPOCRLabel/requirements.txt
pyqt5
paddleocr
xlrd==1.2.0
还需要安装pyqt5
和xlrd
依赖,直接在创建的conda运行环境内使用pip install
安装对应依赖包即可
修改默认中文启动
打开文件 PPOCRLabel.py
搜索def get_main_app
方法 将default='en' 改为 'default='ch'
注释无用代码
还是在 PPOCRLabel.py
文件内,搜索 if os.path.exists('./data/paddle.png'):
将如图的三行代码注释:
启动PPOCRLabel
右键启动 PPOCRLabel.py
启动成功后,会自动弹出PPOCRLabel程序
使用教程参照官方文档
PPOCRLabel官方文档
B站官方视频教程
告别手动标注-OCR自动标注小工具讲解