前言
在使用paddleOCR默认的推理模型,发现文本检测不能适用于全部场景,这时候就需要自行准备数据集进行标注、训练。正好看到paddle有开源的半自动化数据集标注工具。记录使用过程。
根据官方readme文档整理 PPOCRLabel readme
下载源代码
官方仓库直接下载:https://gitee.com/paddlepaddle/PaddleOCR/tree/release/2.7.1

解压后,使用IDE打开PPOCRLabel 文件夹

配置python环境
参考 PaddleOCR环境搭建并简单提取文字 配置运行环境
查看PPOCRLabel/requirements.txt
pyqt5
paddleocr
xlrd==1.2.0
还需要安装pyqt5和xlrd依赖,直接在创建的conda运行环境内使用pip install 安装对应依赖包即可
修改默认中文启动
打开文件 PPOCRLabel.py 搜索def get_main_app 方法 将default='en' 改为 'default='ch'

注释无用代码
还是在 PPOCRLabel.py 文件内,搜索 if os.path.exists('./data/paddle.png'):
将如图的三行代码注释:

启动PPOCRLabel
右键启动 PPOCRLabel.py
启动成功后,会自动弹出PPOCRLabel程序

使用教程参照官方文档
PPOCRLabel官方文档
B站官方视频教程
告别手动标注-OCR自动标注小工具讲解
4250

被折叠的 条评论
为什么被折叠?



