1、获取源代码
cd 到 PPOCRLabel 目录下
2、启动标注工具
安装标注工具
pip install PPOCRLabel # 安装
终端输入命令
# todo 启动【普通模式】,用于打【检测+识别】场景的标签
PPOCRLabel --lang ch
3、打开数据集
4、标注
4.1 自动标注
4.2 手动标注
5、导出结果
6、数据整理
标注完成之后,还是在PPOCRLabel目录下,终端输入命令
python gen_ocr_train_val_test.py --trainValTestRatio 6:2:2 --datasetRootPath ../数据集相对路径,
之后会在根目录下自动创建一个train_data的文件夹
里面就是分好的数据
此时文字检测和文字识别的数据集就都制作好了。
训练ocr模型可以参考这篇