PaddleOCR二次全流程——4. 使用PPOCRLabel标注数据


在PaddleOCR的FAQ集合中没有看到一个与PPOCRLabel相关的问题,同时这个工具发布时间也很新,2020年12月左右发布的,尝试一下新事物,但是不要抱太大的希望。

1. 安装

官方说明文档网站:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.0/PPOCRLabel/README_ch.md

不对安装详细过程作说明,只说遇到的两个坑


1.1 报错:ImportError: cannot import name 'inference' from 'paddle'

按照官方文档的安装一遍之后,报错:ImportError: cannot import name 'inference' from 'paddle',根据以下回答:

python -m  pip install paddlepaddle==2.0.1 -i https://mirror.baidu.com/pypi/simple

在这里插入图片描述

1.2 OSError: [WinError 126] 找不到指定的模块。

这个错误见过很多次了,由于shapely库导致的,去这里直接下载wheel文件手动安装。先卸载之前安装的,再安装新的就好了
在这里插入图片描述

2. 使用

切换到ppocrlabel文件夹中,运行

cd ./PPOCRLabel # 将目录切换到PPOCRLabel文件夹下
conda activate rl37 # (换成自己配置好的那个环境)
python PPOCRLabel.py --lang ch

在这里插入图片描述
可以看到运行的时候,其实会下载一些之前的预训练模型。然后就可以看到界面
在这里插入图片描述

  • 点击自动标注,等一会,图片界面就会出现标记框(会直接标记当前打开目录下的所有图片),右侧就会出现识别的结果和检测框位置。
  • 虽然界面好像丑了点,但是效果确实8错,(๑•̀ㅂ•́)و✧,👍👍👍👍,早知道就早点用了,哈哈。
  • 然后就自己手动调整不太对的框,然后重新编辑一下识别结果。
  • 可以在图片所在的文件夹(不是ppocrlabel程序所在的文件夹),看到自动标注后,产生了两个文件(除了Cache.cach),fileState.txtLabel.txt文件,根据下面注意中的说明,可以知道这些文件的用途。

注意:

  1. PPOCRLabel不支持对中文文件名的图片进行自动标注
  2. PPOCRLabel以文件夹为基本标记单位,打开待标记的图片文件夹后,不会在窗口栏中显示图片,而是在点击 “选择文件夹” 之后直接将文件夹下的图片导入到程序中。
  3. 图片状态表示本张图片用户是否手动保存过,未手动保存过即为 “X”,手动保存过为 “√”。点击 “自动标注”按钮后,PPOCRLabel不会对状态为 “√” 的图片重新标注。
  4. 点击“重新识别”后,模型会对图片中的识别结果进行覆盖。因此如果在此之前手动更改过识别结果,有可能在重新识别后产生变动。
  5. PPOCRLabel产生的文件放置于标记图片文件夹下,包括以下几种,请勿手动更改其中内容,否则会引起程序出现异常。

在这里插入图片描述
另外,标注完之后,可以ctrl+S,然后就会提示要不要报错,或者关闭程序界面的时候也会提示,也可以自己每标注完一张,点击右下角的确认
在这里插入图片描述
点击过确认后,这张图像在文件列表中的图像名前面的符号就会变成√(绿色的对勾)。

3. 关于标签文件

我的真实数据目前很少,只有6张图,但是每张图中的文字信息很密集,很多,所以标记文件内容也还是比较丰富,大致如下:
在这里插入图片描述

先是文件名称,然后是一个列表,列表中包括多个文本字典,字典的第一项是文字识别的结果(transcription),第二项是列表,矩形框四个顶点的位置,第三项是识别难度的分级结果。

所以如果单纯像进行识别任务的训练,可以在文件保存识别结果,然后会提示保存到了哪里,一般是当前选定的图片目录下新建一个叫crop_img的文件夹。
在这里插入图片描述
大致如下:
在这里插入图片描述
同时,还是在当前选定的图片目录下(不是crop_img目录中),会新产生一个rec_gt.txt的文件,这就是识别的标签文件,大致如下:
在这里插入图片描述
完全符合PaddleOCR模型训练的要求(可能文件名这些需要修改一下,直接python文件处理一下就好。)

4. 关于PPOCRLabel的主观评价

  • 之前一直是使用LabelImg或者是LabelMe的,这个PPOCRLabel没有ctrl+Z返回上一步,也没有ctrl+Y下一步
  • 界面丑了点
  • 自动识别挺好的,哈哈
  • 7
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 22
    评论
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吨吨不打野

解决了问题,觉得还行就给点

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值